PEARSON 








(X) Gary Nutt Oui! 纳 特 ) 党 Ce iw 等 详 


OPERATING 
SYSTEMS 


GARY NUTT 


Operating Systems 


Third Edition 





本 书 是 目前 国际 上 采用 率 最 高 的 操作 系统 教科 书 之 一 ， 因 为 在 介绍 现代 操作 系统 的 基本 原 
理 的 同时 ， 使 用 来 自 Linux、UNIX 和 Windows 的 实例 进行 实践 ， 从 而 广 受 好 评 。 本 书 有 助 于 深 
化 读者 对 当代 操作 系统 的 理解 和 应 用 。 在 第 3 版 中 ， 作 者 对 操作 系统 的 原理 的 介绍 覆盖 面 更 广 ， 
并 让 读者 有 更 多 的 机 会 来 实践 现实 世界 的 例子 。 

第 3 版 中 的 新 内 容 

e 使 用 最 通用 的 操作 系统 作为 原理 举例 及 实验 环境 ， 包 括 Linux、UNIX 和 Windows 。 

e 包含 了 更 多 的 实验 ! 比 前 一 版 本 的 例子 要 多 一 倍 ， 给 学 生 很 多 实际 操作 Linux、UNIX 


和 Windows 的 机 会 。 
e 加 入 或 更 新 了 以 下 信息 : 
手持 和 无 线 系统 = SMP/ 多 处 理 机 
a 安全 = 存储 媒体 ,包括 DVD 和 其 他 ISO 9000 设 备 


m 线程 ， 包 括 UNIX 和 Windows 线 程 
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本 书 系统 描述 操作 系统 原理 和 实现 ,并 富 含 大 量 解决 问题 的 算法 .背景 信息 真实 示例 和 编 
程 练习 ， 书 中 使 用 最 通用 的 操作 系统 (包括 Linux, UNIX 和 Windows) 进 行 讲 解 ,有 助 于 深化 读 
者 对 操作 系统 原理 概念 和 算法 的 理解 。 本 书 不 但 适合 作为 高 校本 科 专 业 的 操作 系统 教材 , 同 
时 也 适合 专业 技术 人 员 自 学 参考 。 
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出 版 者 的 话 


文艺 复兴 以 降 ,源远流长 的 科学 精神 和 逐步 形成 的 学 术 规范 ,使 西方 国家 在 自然 科学 的 各 个 领域 取得 了 
垄断 性 的 优势 ;也 正 是 这 样 的 传统 ,使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 . 独 领 风 驭 。 在 商业 化 的 
进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ,计算 机 学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 
前 线 ,由 此 而 产生 的 经 典 科学 著作 ,不仅 父 划 了 研究 的 范畴 ,还 揭 多 了 学 术 的 源 变 , 既 遵 循 学 术 规范 ,又 自 有 
学 者 个 性 ,其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ,在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ,对 专业 人 才 的 需求 日 益 人 迫切 。 这 对 计 
算 机 教育 界 和 出 版 界 都 既是 机 遇 , 也 是 挑战 ;而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 在 我 国信 息 技 
术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ,美国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 的 经 典 教材 
仍 有 许多 值得 借鉴 之 处 。 因 此 ,引进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推 
动作 用 ,也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ,华章 公司 就 
将 工作 重点 放 在 了 效 选 、 移 译 国外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 , 我 们 与 Prentice Hall, Addison-Wesley, 
McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ,从 它们 现 有 的 数 百 种 教材 中 又 
选 出 Tanenbaum, Stroustrup, Kernighan, Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 , 以 “计算 机 科学 从 书 " 为 总 称 出 
版 , 供 读者 学 习 、 研 究 及 刻 藏 。 大 理 石 纹理 的 封面 ,也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 圳 助 ,国内 的 专家 不 仅 提供 了 中 肯 的 选 题 指导 ， 
还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ,有 的 还 专 诚 为 其 书 
的 中 译本 作 序 。 迄 今 “计算 机 科学 丛书" 已 经 出 版 了 近 百 个 品种 ,这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ,并 
被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 ,为 进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 步 人 一 个 新 
的 阶段 。 为 此 ,华章 公司 将 加 大 引进 教材 的 力度 ,在 “华章 教育 "的 总 规划 之 下 出 版 三 个 系列 的 计算 机 教材 : 除 
“计算 机 科学 丛书" 之 外 ,对 影印 版 的 教材 , 则 单独 开辟 出 “经 典 原版 书库 "; 同 时 ,引进 全 美 通行 的 教学 辅导 书 
“Schaum ' s Outlines” 系列 组 成 全美 经 典 学 习 指 导 系 列 ”。 为 了 保证 这 三 套 丛 书 的 权威 性 ,同时 也 为 了 更 好 地 为 
学 校 和 老师 们 服务 ,华章 公司 聘请 了 中 国 科 学 院 、 北 京 大 学 清华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 .上 海 交通 大 
学 .南京 大 学 浙江 大 学 .中国 科技 大 学 哈尔滨 工业 大 学 西安 交通 大 学 .中 国人 民 大 学 .北京 航空 航天 大 学 、 北 
京 邮电 大 学 `. 中 山大 学 解放 军 理工 大 学 .郑州 大 学 .湖北 工学 院 . 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 重点 
大 学 和 科研 机 构 在 计算 机 的 各 个 领域 的 著名 学 者 组 成 “专家 指导 委员 会 ”, 为 我 们 提供 选 题 意 见 和 出 版 监督 。 

这 三 套 从 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 , 为 国内 高 校 的 计算 机 及 相关 专业 的 教学 度 身 订 
造 的 。 其 串 许 多 教材 均 已 为 M. 1. T. ,Stanford,U.C. Berkeley,C. M. U. 等 世界 名 牌 大 学 所 采用 。 不 仅 涵 
盖 了 程序 设计 .数据 结构 ,操作 系统 、 计 算 机 体系 结构 数据库、 编译 原理 .软件 工程 .图 形 学 、 通 信 与 网 络 、 离 
散 数 学 等 国内 大 学 计算 机 专业 普遍 开设 的 核心 课程 ,而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 
三 十 年 而 不 衰 、 有 的 已 被 全 世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ,读者 必 将 在 计 . 
算 机 科学 的 宫殿 中 由 登 堂 而 人 室 。 

权威 的 作者 .经典 的 教材 一流 的 译 者 .严格 的 审 校 、 精 细 的 编辑 , 这些 因素 使 我 们 的 图 书 有 了 质量 的 保 
证 ,但 我 们 的 目标 是 尽善尽美 ,而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 教 材 的 出 版 只 是 我 们 
的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ,我 们 的 联系 方法 如 下 ， 


电子 邮件 ;hzedu@ hzbook. com 

联系 电话 :(010)68995264 

联系 地 址 :北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 :100037 
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译 者 & 


操作 系统 是 计算 机 系统 中 的 核心 系统 软件 , 它 负责 控制 和 管理 整个 系统 的 资源 并 组 织 用 户 协调 使 用 这 
些 资源 ,使 计算 机 高 效 地 工作 。 操 作 系 统 是 计算 机 科学 与 技术 专业 的 核心 课程 。 随 着 计算 机 技术 的 发 展 以 
及 各 类 嵌入 式 系统 的 广泛 应 用 ,其 他 相关 专业 也 相继 把 操作 系统 作为 一 门 重要 的 必修 或 选修 课程 。 

国内 外 有 关 操 作 系 统 的 本 科教 材 很 多 ,大 部 分 教材 偏重 理论 学 习 , 虽 然 有 针对 商业 或 实验 操作 系统 的 结 
构 和 实现 分 析 , 但 也 往往 停留 在 比较 粗浅 的 描述 上 。 对 实用 操作 系统 结构 、 算 法 及 编程 实验 的 描述 力度 远 远 
不 能 满足 学 生 自学 的 需要 。 本 书 全 面 讨论 了 操作 系统 原理 ,并 补充 有 解决 问题 的 算法 、 代 码 和 实验 工具 说 
明 ,特别 提供 了 在 当代 实用 操作 系统 UNIX(Linux) 或 Windows 上 的 实验 练习 , 以 加 强 读者 对 操作 系统 原理 、 
概念 和 算法 的 理解 。 本 书 在 讲授 内 容 的 安排 上 也 很 独到 ,把 设备 管理 排 到 前 面 是 一 个 有 益 的 尝试 。 本 书 适 
合作 为 高 校本 科 专 业 的 操作 系统 教材 ,同时 特别 适合 作为 操作 系统 的 自学 用 书 。 

本 书 共 分 21 章 ,有 原理 描述 章节 也 有 操作 系统 实例 描述 章节 ,在 原理 描述 中 同时 利用 商用 操作 系统 实 
现实 例 加 以 解释 。 前 4 章 为 进 人 操作 系统 实质 内 容 学 习 打 基础 ,第 5 章 到 第 14 章 涉及 操作 系统 各 种 资源 管 
理 、 进 程 同步 互 斥 及 安全 等 基本 内 容 ,第 15 章 到 第 17 章 描述 了 网 络 和 分 布 式 系统 的 概念 与 技术 ,第 18 章 对 
当今 流行 的 并 行 与 分 布 式 计算 环境 进行 了 介绍 ,最 后 介绍 了 一 些 商用 操作 系统 的 结构 与 实现 。 

本 书 由 罗 字 、 吕 硕 翻 译 ,并 参考 了 备 祥 山 等 译 的 本 书 第 2 版 (实验 更 新 版 ) 的 部 分 内 容 。 罗 宇 、 赵 宝 康 对 
全 文 进行 了 审 校 。 由 于 审 译 者 水 平 有 限 ,因此 书 中 可 能 存在 不 尽 人 意 的 地 方 ,希望 广大 专家 和 读者 提出 宝贵 
意见 。 


译 者 
国防 科学 与 技术 大 学 计算 机 学 院 
2005 年 3 月 
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致 学 生 
操作 系统 是 一 个 令 人 激动 的 软件 领域 ,因为 操作 系统 (OS) 的 设计 对 计算 机 的 总 体 功能 和 性 能 都 有 着 重 

要 的 影响 。 在 初次 学 习 操 作 系 统 时 ,理解 所 有 操作 系统 设计 背后 的 原理 (principle) 是 非常 重要 的 ,而 且 还 要 

留意 这 些 原理 如 何在 真实 操作 系统 中 实现 





本 书 的 目标 就 是 要 提供 一 个 操作 系统 原理 的 全 
” 面 讨论 ,并 补充 解决 问题 的 算法 、 代 码 和 实现 工具 , 通 
美 。 过 实验 练习 来 帮助 读者 理解 当代 操作 系统 实践 ,特别 
E 是 对 UNIX 和 Windows 操作 系统 的 理解 。 本 书 试图 
” ”通过 在 正文 中 讨论 原理 ,并 把 大 部 分 的 实践 材料 放 在 
补充 讨论 和 实验 中 ;把 概念 性 内 容 与 应 用 性 内 容 区 分 
开 来 。 
问题 的 核心 在 于 概念 性 的 内 容 。 很 多 操作 系统 
原理 可 以 使 用 形式 化 的 (数学 的 ) 术 语 或 者 在 非 形 式 
化 的 讨论 中 进行 描述 。 非 形式 化 的 描述 相对 容易 阅 
读 , 但 形式 化 的 描述 更 为 准确 。 例 如 ,字典 的 一 种 非 
形式 化 的 解释 可 能 为 :“ 它 是 一 个 术语 的 列表 ,同时 有 
各 个 术语 的 定义 说 明 。” 然 而 形式 化 的 描述 可 能 指明 字典 是 “一 种 机 制 ,将 某 术语 x 映射 到 该 术语 的 定义 
f(z)。" 第 一 种 解释 是 直观 的 ,而 第 二 种 解释 主要 关注 字典 的 逻辑 描述 。 第 一 种 描述 表明 字典 是 一 个 列表 或 
表 的 实现 ,而 第 二 种 描述 包含 的 实现 方式 范围 ,可 以 从 表 到 列表 ,到 关联 存储 器 ,到 数据 库 ,到 Web 服务 器 
等 。 非 形式 化 的 定义 说 明 有 如 一 部 字典 ,但 形式 化 的 定义 说 明 还 适用 于 编译 器 符号 表 。 本 书 的 目标 是 解释 
操作 系统 的 一 般 原理 ,并 使 读者 对 如 何 设计 操作 系统 有 一 个 深入 的 理解 。 实 现 该 目标 最 好 使 用 形式 化 的 描 
述 ,因为 它 集中 于 概念 的 逻辑 目的 ,而 不 是 如 何 实现 概念 的 一 个 例子 。 本 书 在 前 面 的 章节 中 使 用 非 形式 化 的 
或 专门 的 叙述 来 描述 操作 系统 的 概念 ,很 少 有 形式 化 的 描述 。 但 随 着 讨论 的 深入 ,形式 化 的 描述 会 逐渐 增 
加 。 概 念 的 形式 化 讨论 中 总 是 伴随 有 非 形式 化 的 讨论 和 示例 。 
操作 系统 是 围绕 着 性 能 问题 进行 设计 的 。 如 果 性 能 太 低 , 则 它 是 一 个 失败 的 操作 系统 。 然 而 ,对 性 能 的 
详细 讨论 往往 会 使 概念 模糊 。 因 为 在 学 习 操作 系统 时 ,概念 是 十 分 重要 的 一 部 分 ,所 以 本 书 在 各 个 部 分 逐步 
涉及 分 析 和 性 能 理论 。 本 书 将 经 常 提 及 性 能 问题 ,并 提供 性 能 问题 的 非 形式 化 的 解释 。 这 将 使 读者 对 性 能 
问题 有 一 个 直观 认识 ,可 以 在 以 后 再 正式 地 学 习 它 。 如 果 关 于 性 能 的 评价 符合 概念 的 描述 ,那么 会 把 它们 包 
括 在 概念 的 讨论 之 中 。 
如 前 所 述 , 使 用 真正 的 操作 系统 代码 进行 实验 ,有 助 于 理解 操作 系统 概念 是 如 何在 真正 的 系统 中 实现 
的 。 同 样本 书 也 提供 了 两 种 其 他 类 型 的 资料 ,帮助 读者 学 习 有 关 当前 操作 系统 的 实践 :示例 和 实验 练习 。 
。 示例 解释 了 在 UNIX, Linux, Windows 或 者 其 他 操作 系统 中 如 何 应 用 或 实现 这 些 概念 。 其 中 不 少 示 
例 都 是 代码 例子 ,有 助 于 读者 领会 操作 系统 如 何 实现 书 中 的 理论 。 大 部 分 例子 是 来 自 完整 程序 的 C 
代码 段 ,其 中 这 些 完整 程序 已 经 编译 和 执行 过 。 其 他 例子 使 用 C 语言 对 算法 和 实现 技术 进行 了 描 
述 ,这 些 描述 故意 忽略 了 细节 ,这 些 细节 在 实际 实现 中 是 必 不 可 少 的 ,但 并 不 影响 对 算法 的 理解 。 当 
代码 是 一 个 实际 的 实现 时 ,代码 的 上 下 文中 会 说 明 , 和 否则 总 是 假定 它 是 一 个 算法 或 技术 的 描述 。 我 
已 经 使 用 伪 代码 语言 进行 了 实验 描述 ,但 学 生 和 本 书 的 审阅 者 通常 喜欢 使 用 C 语言 ,请 留意 不 要 认 
为 用 C 语言 的 描述 是 完整 的 实现 。 
。 书 中 也 包括 实验 练习 。 每 个 练习 中 都 提出 一 个 问题 ,然后 提供 了 解决 问题 所 需 的 全 面 的 背景 知识 ， 
并 帮助 你 设计 解决 方案 。 这 些 练习 用 到 了 各 种 UNIX 和 Windows 操作 系统 ,将 带 给 你 宝贵 的 实践 经 





” 你 比 我 想像 得 更 喜欢 这 门 课程 。 
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验 。 
。 UNIX 还 是 Windows? 对 于 讨论 哪个 系列 的 操作 系统 更 好 这 一 问题 ,老师 可 能 有 不 同 的 看 法 。 我 在 
教授 操作 系统 课程 时 ,有 时 使 用 UNIX, 有 时 使 用 Windows。 无 论 使 用 哪 一 种 操作 系统 , 书 中 都 提供 
了 足够 的 示例 以 及 实验 练习 。 你 的 老师 可 能 会 选择 某 一 种 操作 系统 ,并 指导 你 阅读 这 些 示例 并 解决 
实验 练习 。 不 要 轻易 跳 过 其 他 操作 系统 的 实现 细节 , 它 将 拓宽 你 的 视野 ,并 且 对 你 未 来 的 编程 生涯 
十 分 有 益 。 
在 此 提 及 几 个 要 注意 的 地 方 。 首 先 就 是 有 关 术 语 的 使 用 。 我 们 很 难 避 免 在 高 级 科学 和 工程 课程 上 使 用 
一 些 术 语 , 所 以 ,为 了 学 习 高 级 专题 (如 操作 系统 ) ,你 至 少 要 知道 一 些 术 语 。 这 样 在 开始 操作 系统 的 学 习 时 ， 
你 已 经 积累 起 一 些 术 语 (如 “算法 "“ 随 机 存储 器 "“ 千 兆 字 节 ” 和 “链表 ”) ,并 能 使 用 这 些 术 语 和 其 他 编程 人 
员 相互 讨论 。 没 有 谁 知道 或 能 够 记 住所 有 技术 术语 。 为 了 解决 这 个 问题 ,本 书 的 后 面 提供 了 一 个 术语 表 , 其 
中 可 能 会 遗漏 一 些 术 语 ,如 果 碰 到 一 些 并 没有 定义 的 术语 ,请 参看 软件 术语 字典 ,如 http: //inf. astrian. net/ 
jargon/o ; 
操作 系统 中 有 很 多 复杂 的 理念 。 我 们 在 磁 上 这 类 系统 时 ,要 循序 渐进 地 学 习 。 例如, 当 你 要 学 习 如 何 骑 
自行 车 时 ,必须 要 学 会 转弯 、 停 止 \ 平 衡 还 有 移动 。 如 果 你 要 写 一 篇 如 何 骑 自 行车 的 论文 , 则 先 要 粗略 地 涉及 
转弯 、 停 止 \ 平 衡 还 有 移动 ,然后 再 详细 描述 它们 。 第 一 阶段 需要 说 明 所 有 的 部 分 而 不 用 告诉 读者 太 多 的 细 
节 。 第 二 阶段 需要 提供 转弯 的 细节 (例如 ,在 你 慢 慢 地 学 习 转弯 去 保持 平衡 以 及 向 前 运动 ,还 有 诸如 此 类 的 
动作 时 ,都 需要 去 转动 车 把 ) 。 操 作 系 统 也 是 很 难 在 一 个 阶段 中 学 会 的 。 当 开始 学 习 进 程 时 ,你 会 对 内 存 和 
文件 感到 很 惊奇 。 在 “两 阶段 "策略 中 ,你 在 第 一 阶段 先 了 解 一 下 各 部 分 的 大 致 情况 ,然后 在 第 二 阶段 开始 学 
习 细 节 。 有 时 还 有 第 三 阶段 ,特别 适合 于 理解 这 些 细节 在 一 个 特定 的 操作 系统 中 如 何 实现 。 这 种 多 阶段 策 
略 是 递归 进行 的 。 对 本 书 而 言 , 第 1~ 3 章 是 第 一 阶段 。 第 4 一 14 章 是 第 二 阶段 ,是 操作 系统 的 主要 部 分 。 
第 15 一 18 章 也 是 第 二 阶段 ,涉及 相关 Boe: is 也 Te ee eae 
核心 技术 的 主题 。 第 19 章 仍 然 是 第 es 
二 阶段 ,涉及 有 关 操 作 系 统 的 设计 问 2 
题 。 第 20、21 章 是 第 三 阶段 ,介绍 
Linux 和 Windows NT。 每 一 章 的 论述 
也 采取 了 类 似 的 策略 :首先 对 内 容 进 
行 概述 ,然后 进行 详细 介绍 ,最 后 安排 有 
实验 练习 。 RA 
对 操作 系统 的 研究 一 直 以 来 就 是 > o g 
计算 机 科学 中 最 具 挑 战 性 和 令 人 激动 © 
的 领域 之 一 。 我 希望 本 书 使 得 操作 系 
统 的 复杂 结构 变 得 容易 理解 ,并 且 避 
免 使 其 中 简单 的 内 容 让 人 厌烦 。 祝 你 
在 操作 系统 的 学 习 中 好 运 ,并 且 希 望 





致 教 师 


我 写 这 本 书 的 初衷 是 :我 试图 寻 
找 一 本 书 ,其 中 有 上 比 现 有 的 书 中 更 多 
的 原理 。 同 时 ,我 感到 如 果 学 生 们 不 
能 投身 到 广泛 的 操作 系统 实践 中 去 ， ， ， 
那么 原理 将 是 难以 接受 的 。 这 仍然 是 
本 书 第 3 版 所 持 有 的 观点 : 书 中 对 原 
理 的 讨论 是 综合 的 (无 论 从 深度 和 广 
度 ) ,另外 增加 了 一 些 有 关 操 作 系统 设 ， 
计 和 编程 的 实质 性 的 辅助 信息 。 





第 3 版 中 的 变化 
本 书 是 在 前 两 个 版 本 和 第 3 版 的 草稿 上 ,以 及 前 两 版 的 读者 的 积极 指点 下 出 版 的 。 我 们 的 目标 是 : 
。 修订 表示 方式 。 花 费 了 大 量 的 时 间 在 解释 普通 的 概念 上 ,使 用 了 更 多 的 类 比 和 实际 的 例子 。 
。 提供 一 个 全 面 而 综合 的 教学 内 容 , 是 一 本 十 分 合适 的 大 学 操作 系统 教材 。 
。 不 像 市 场 上 的 其 他 教材 ,本 书 有 更 多 的 示例 和 编程 项 目 ,扩展 了 教学 方式 。 
许多 使 用 过 本 书 第 2 版 (特别 是 实验 更 新 版 ) 的 老师 建议 进程 描述 部 分 应 该 更 新 ,增加 多 线程 的 进程 内 
容 。 有 趣 的 是 ,第 3 版 草稿 的 一 些 审阅 者 反对 将 线程 内 容 增加 到 此 书 中 。( 写 一 本 每 个 人 都 喜欢 的 书 真 不 容 
易 !1) 现 在 ,大 部 分 的 操作 系统 都 支持 内 核 线程 (在 Linux 和 其 他 的 UNIX 系统 中 ,内 核 线程 由 POSIX 线程 接 
口 提 供 支 持 , 所 以 , 它 看 起 来 就 像 在 用 户 空 间 中 实现 一 样 )。 如 果 重 新 描述 进程 模型 时 不 涉及 线程 ,是 我 的 失 
职 。 本 书 以 普通 的 方式 描述 了 经 典 进程 ,并 解释 经 典 进程 模型 如 何 演化 到 具有 多 线程 的 现代 进程 。 本 书 试 
图 使 用 “进程 ?或 “进程 /线程 "来 表达 单线 程 经 典 进程 或 有 一 个 单线 程 的 现代 进程 。 
对 概念 和 问题 的 描述 部 分 已 完全 重 写 ,这 使 得 它们 更 易 理解 。 专 业 出 版 编辑 在 这 上 面 做 了 大 量 工作 , 确 
保 了 本 书 通俗 易 懂 。 我 们 也 增加 了 更 多 的 图 和 例子 。 使 用 早期 版 本 的 读者 希望 有 更 多 的 代码 ,所 以 本 书 中 
增加 了 大 量 的 代码 ,如 果 不 想 看 ,可 以 跳 过 。 
为 了 全 面 探讨 操作 系统 ,我们 打算 加 入 由 ACM/IEEE 课程 推荐 的 所 有 主题 。 为 此 我 们 请 求 以 前 的 学 生 
和 老师 告知 哪些 部 分 没有 涉及 到 。 结 果 , 本 书包 含 了 线程 .移动 和 无 线 计 算 、 嵌 人 式 操作 系统 技术 、 新 设备 的 
使 用 ,以 及 更 多 的 有 关 多 处 理 器 方面 的 内 容 。 本 书 不 仅 更 新 了 安全 这 一 章 , 使 得 它 以 更 合理 的 方式 表示 重要 
的 概念 ,而 且 还 提供 了 更 多 密码 系统 的 讨论 。 这 一 版 反映 了 操作 系统 领域 自 本 书 第 2 版 出 版 以 来 的 大 体 发 
展 。 除 了 像 将 进程 更 新 成 线程 /进程 这 样 的 变换 外 ,每 一 章 都 进行 了 修订 以 反映 当代 操作 系统 技术 。 有 的 章 
节 改 变 很 少 ( 例 如 调度 和 死 锁 这 一 章 ) ,但 是 ,其 他 章节 均 有 较 大 的 变化 来 反映 当代 操作 系统 技术 (例如 ,第 1、 
5,614.17 和 18 章 )。 第 18 章 介 绍 分 布 式 程序 设计 运行 时 系统 ,是 全 新 的 一 章 , 它 反映 了 系统 软件 技术 (如 
Java 虚拟 机 和 微软 通用 语言 运行 时 库 等 ) 和 主流 操作 系统 技术 间 的 关系 。 
实验 环境 
商业 化 操作 系统 只 有 少数 被 广泛 应 用 。 虽 然 研 究 这 些 操 作 系 统 很 有 价值 ,但 在 课堂 中 使 用 它们 进行 实 
验 有 很 多 实际 的 障碍 。 首 先 ,商业 化 操作 系统 非常 复杂 ,因为 它们 必须 对 商业 应 用 提供 全 部 的 支持 。 使 用 此 
类 复杂 软件 进行 实验 是 不 切实 际 的 ,因为 有 时 我 们 很 难 领会 特殊 问题 是 如 何在 软件 内 处 理 的 ,对 代码 的 任何 
微小 改变 都 可 能 对 整个 操作 系统 的 运行 产生 不 可 预测 的 影响 。 其 次 ,通常 公司 对 其 实现 的 操作 系统 软件 有 
明确 的 专利 权 保护 。 结 果 是 ,公司 可 能 不 愿意 提供 操作 系统 源 代 码 给 任何 希望 研究 和 学 习 操作 系统 的 用 户 。 
在 课堂 中 ,我 使 用 了 两 个 方法 来 处 理 这 个 问题 
。 课程 要 基于 实际 操作 系统 的 外 部 视点 。 这 基本 是 ACM/IEEE 2001 课程 推荐 的 方法 。 
。 课程 要 基于 某 个 “可 管理 的 ”操作 系统 的 内 部 视点 。 
我 已 经 与 很 多 教 操 作 系 统 课程 的 教师 讨论 过 这 个 问题 。 关 于 大 学 操作 系统 课程 ,选择 合适 的 实验 是 一 
个 普遍 的 难题 。 然 而 ,在 OSDI 会 议 上 ,与 会 者 一 致 同意 操作 系统 的 外 部 视点 应 该 用 于 初级 的 操作 系统 课 
程 。 我 们 所 有 的 实验 练习 都 要 求学 生 编 写 UNIX 或 Windows 用 户 空间 代码 。 通 过 练习 应 用 编程 的 方式 (而 
不 是 修改 内 核 代码 ) ,学 生 可 以 对 内 核 的 工作 方式 有 一 个 特定 角度 的 洞察 。 对 特定 的 操作 系统 课程 来 说 ,这 
种 方法 有 额外 的 好 处 ,并 不 要 求 你 有 “可 崩溃 的 ”实验 设施 。. 
虽然 大 家 普遍 认为 在 一 开始 就 教授 操作 系统 的 内 核 非常 困难 ,不 过 许多 人 仍 希望 尽 可 能 早 地 开设 关于 
操作 系统 内 核 的 课程 。 如 果 你 决定 教授 操作 系统 内 核 的 课程 一 作为 初级 或 中 级 课程 ,那么 可 供 选 择 的 目 
标 操作 系统 会 比较 有 限 。 如 果 你 想 研究 一 个 真正 的 操作 系统 , 那 最 好 选择 Linux 或 者 FresBSD, 否则 只 能 先 
择 一 个 教学 系统 。 在 补充 站 点 上 ,我 们 为 一 个 学 期 的 课程 提供 了 足够 的 Linux 2.2.12 内 核 内 部 材料 。 
实验 练习 . 
这 本 书 的 每 一 个 版 本 都 试图 提供 最 好 用 、 最 流行 的 概念 化 材料 ,以 及 相应 的 编程 练习 。 在 第 1 版 中 , 编 
程 练习 是 作为 常规 练习 出 现 的 ,并 没有 什么 背景 知识 。 在 第 2 版 中 ,增加 了 一 些 实验 练习 ,这 些 练习 以 问题 
的 方式 引入 ,提供 了 全 面 的 背景 材料 ,并 给 出 了 解决 方案 (我 是 在 Window NT 项 目 手册 [Nutt， 1999] 和 Linux 
内 核 手册 [Nutt, 2001] 的 指导 下 写 这 些 实验 练习 的 )。 这 些 实验 练习 为 助教 提供 了 辅助 教学 材料 ,它们 是 在 
学 生 们 仅 有 基本 概念 的 情况 下 去 教学 生 解 决 编程 问题 的 。 这 允许 你 在 上 课时 花费 更 多 的 时 间 来 讲授 基本 原 





理 , 但 也 要 确保 学 生 主 动 去 阅读 一 些 特定 的 操作 系统 例子 。 

在 1998 年 ,我 在 春秋 两 季 分 别 使 用 UNIX 版 本 和 Windows 版 本 来 进行 操作 系统 教学 。 这 意味 着 我 需要 
为 两 个 版 本 的 操作 系统 提供 实验 练习 和 代码 示例 。 简 而 言 之 ,我 需要 两 本 书 ,一 本 重点 讲解 操作 系统 原理 并 
提供 大 量 UNIX 系统 的 例子 和 练习 , 另 一 本 也 是 类 似 的 ,不 过 是 基于 Windows 系统 。 无 论 研究 UNIX 还 是 
Windows 系统 ,本 书 都 提供 了 足够 的 实验 练习 。 本 书 提供 的 实验 练习 有 10 个 能 在 UNIX 环境 下 实现 ,有 9 
个 能 在 Windows 环境 下 实现 。 当 选 定 某 一 个 操作 系统 时 ,学 生 就 能 认真 地 学 习 为 该 操作 系统 准备 的 例子 和 
实验 练习 ,并 可 以 跳 过 另 一 个 操作 系统 相关 的 例子 和 实验 练习 。 求 知 欲 强 的 学 生 可 以 学 习 两 种 操作 系统 ,并 
能 从 中 受益 天 浅 。 最 后 ,通过 把 实验 练习 加 入 本 书 , 书 中 的 原理 与 实践 很 好 地 结合 在 了 一 起 ,十 分 有 利于 增 
强 学 生 的 动手 能 力 。 

主题 组 织 

本 书 的 内 容 安排 基于 读者 对 本 书 第 1 版 和 第 2 版 的 反应 、 我 的 操作 系统 教学 经 验 ,以 及 从 很 多 其 他 教师 
那里 得 到 的 信息 。 本 书 反映 了 知识 的 融合 以 及 众多 教师 的 教学 实践 ,我 相信 这 种 合乎 逻辑 的 安排 能 够 被 大 
多 数 教师 所 接受 。 

第 1~4 章 的 内 容 是 重要 的 引 论 部 分 , 它 为 操作 系统 的 学 习 提 供 了 一 个 坚实 的 基础 。 读 者 可 以 快速 地 复 
习 一 下 这 部 分 内 容 , 也 可 将 它 作 为 课外 阅读 材料 ,尤其 是 如 果 这 部 分 内 容 已 经 在 预 修 课 程 中 学 过 了 。 然 而 ， 
在 从 第 5 章 开 始 真正 深 和 人 学 习 操 作 系统 之 前 ,理解 这 部 分 内 容 是 关键 的 。 经 验 告 诉 我 第 2 章 的 内 容 非常 值 
得 阅读 。 因 为 在 学 习 操作 系统 之 前 ,编写 过 并 发 程序 的 学 生 比较 少 。 第 2 章 的 练习 可 以 让 学 生 研究 基本 的 
并 发 概念 (尽管 他 们 还 不 会 表示 同步 问题 )。 如 果 你 想 要 练习 编写 命令 解释 程序 ,在 第 2 章 中 即 可 看 到 它 的 
框架 , 它 是 作为 一 个 扩展 的 例子 出 现 的 。 在 第 2 一 9 章 中 ,会 以 实验 练习 的 形式 逐渐 完善 它 。 

本 书 从 设备 管理 开始 讨论 操作 系统 的 细节 。 尽 管 这 种 方法 遵循 了 传统 操作 系统 的 演化 过 程 ,但 你 还 是 
会 发 现 这 种 方法 不 一 般 。 如 在 第 4 章 讨论 完 中 断 之 后 ,第 5 章 再 对 设备 管理 进行 讨论 比较 合理 。 这 种 描述 
方法 为 引入 独 立 线程 (硬件 和 软件 )、 并 发 .同步 提供 了 基础 。 在 读 完 设备 管理 这 一 章 之 后 ,你 就 会 对 进程 . 资 
源 管理 .调度 .同步 和 死 锁 这 些 概念 产生 深刻 印象 。 

存储 管理 也 是 一 个 很 重要 的 主题 ,老师 们 常常 绞 尽 脑汁 地 想 把 它 表 达 清 楚 。 本 书 把 它 放 在 进程 管理 之 
后 文件 系统 之 前 介绍 。 然 后 ,在 学 生理 解 了 进程 和 各 种 资源 (如 普通 资源 、 内 存 以 及 文件 ) 的 概念 后 ,本 书 对 
保护 和 安全 这 些 问 题 进行 了 讨论 。 

任何 现代 的 操作 系统 都 必须 能 在 分 布 式 的 环境 下 运行 。 分 布 式 操作 系统 一 直 影响 着 操作 系统 的 研究 。 
在 所 有 的 传统 主题 讨论 完 之 后 ,第 15 一 17 章 引 人 了 分 布 式 操作 系统 。 由 于 商业 系统 和 网 络 的 流行 ,许多 老 
师 希 望 介 绍 这 些 内 容 。 然 而 ,在 一 个 学 期 的 课程 中 ,不 能 花费 太 多 时 间 来 讲解 这 些 内 容 。 

受 Java( 和 .NET 以 及 CLR) 成 功 的 驱动 ,本 书 引 入 了 分 布 式 程序 设计 运行 时 系统 这 一 新 的 内 容 。 教 操 
作 系 统 课 程 的 老师 常常 想 要 谈论 类 似 于 Java 的 技术 ,或 者 想 要 描述 用 Java 编写 的 操作 系统 。 不 幸 的 是 (至 
少 在 我 写作 本 书 之 时 ,2001 一 2003) ,这 些 技 术 并 没 用 于 构建 操作 系统 内 核 ,也 没 用 于 髋 人 商业 内 核 。Sun ZS 
司 在 Solaris 平台 上 实现 了 Java 虚拟 机 ,微软 公司 在 Windows 平台 上 实现 了 CLR。 本 书 反映 了 如 下 事实 : 操 
作 系 统 内 核 技术 仍然 是 用 基于 C 的 技术 来 描述 的 。 然 而 ,类 似 于 Java 的 技术 也 很 重要 , 书 中 也 有 对 它 的 详 
细 解 释 。 本 书 为 运行 时 系统 ,特别 是 支持 并 发 (分 布 ) 程 序 设计 的 运行 时 系统 这 一 部 分 增加 了 新 的 一 章 , 这 人 么 
做 十 分 合理 。 随 着 时 间 的 推移 ,存在 于 运行 时 系统 中 的 一 些 功能 会 在 内 核 中 出 现 。 

。 第 1 章 展现 了 操作 系统 是 如 何 适 应 日 益 进 步 的 计算 机 产品 (从 大 型 机 到 工作 站 .移动 计算 机 ) 以 及 其 
他 软件 技术 的 。 在 早期 的 草稿 中 曾 包 括 了 一 些 历史 内 容 ,教师 往往 喜欢 有 一 点 历史 和 前 后 关系 的 内 
容 , 但 很 多 学 生 却 很 厌烦 。 所 以 本 书 已 经 将 历史 内 容 分 散 到 各 个 部 分 中 。 当 讨论 特定 主题 时 ,操作 
系统 各 个 部 分 的 历史 背景 很 自然 就 包括 进来 了 。 
第 2 章 在 概念 性 操作 系统 书籍 中 是 独特 的 ,其 中 考虑 了 如 何 使 用 一 个 操作 系统 ,尤其 是 如 何 写 一 个 
使 用 多 线程 或 进程 的 程序 。 增 加 这 一 章 是 因为 我 的 教学 经 验 ,对 于 计算 机 科学 专业 大 三 或 大 四 的 学 
生 , 他 们 可 能 已 经 编写 了 相当 多 的 单线 程 代码 ,但 很 可 能 极 少 编写 过 或 者 学 习 过 多 线程 软件 。 如 果 
学 生 用 Java 或 另 一 种 基于 线程 的 语言 进行 并 发 编程 的 话 ,这 一 章 的 材料 仍然 是 有 价值 的 ,因为 它 有 
并 发 C 编程 的 例子 和 讨论 。UNIX 命令 解释 程序 和 Windows 实验 练习 就 是 这 一 章 的 编程 和 练习 内 
容 。 . 





. 


第 3 章 描 述 了 操作 系统 的 基本 组 织 结构 ,包括 实现 策略 。 实 验 练习 提供 了 初步 的 UNIX 操作 系统 内 
部 操作 。 

第 4 章 为 进一步 学 习 操作 系统 提供 了 过 渡 一 一 计算 机 组 织 结构 。 对 于 已 经 修 过 计算 机 组 织 结构 这 
门 课 的 学 生来 说 ,第 4 章 的 前 半 部 分 将 是 进行 回顾 ,后 半 部 分 描述 了 中 断 ,着 重 强调 了 对 于 操作 系统 
至 关 重 要 的 方面 。 

第 5 章 描述 了 设备 管理 ,尤其 是 一 般 的 技术 、 缓 冲 以 及 设备 驱动 程序 。 该 章 试 图 完全 基于 Linux 设备 
驱动 程序 进行 讨论 。 然 而 ,该 章 的 主要 部 分 却 重点 介绍 中 断 驱动 MO 的 宏观 目标 以 及 一 般 组 织 结 
构 。 避 免 了 列举 一 个 实际 Linux 驱动 程序 导致 的 缺乏 普遍 性 的 缺点 ,包括 有 对 设备 驱动 程序 的 扩展 
讨论 。 实 验 练习 提供 了 一 个 很 好 的 用 户 空 间 设备 驱动 例子 。 学 生 们 喜欢 这 种 尝试 ,因为 他 们 能 直接 
写 一 些 代 码 来 操纵 软盘 (即使 是 通过 文件 接口 )。 该 章 在 考虑 进程 之 前 分 析 了 设备 ,因为 设备 提供 了 
一 种 基本 的 物理 并 发 例子 ,并 且 必 须 仔 细 地 设计 软件 来 控制 并 发 运行 。 这 自然 也 为 学 习 进 程 管理 打 
下 了 基础 。 

第 6 一 10 章 致力 于 讨论 进程 管理 。 从 基本 的 任务 、 进 程 的 组 织 结构 以 及 资源 管理 器 (第 6 章 ) 开 始 ,到 
调度 (第 7 章 ) .同步 (第 8.9 章 ) 以 及 死 锁 (第 10 章 )。 这 些 章 的 实验 练习 扩展 了 这 些 主题 。 

第 11 章 讨论 存储 管理 的 传统 问题 ,第 12 章 涉及 使 用 虚 存 的 存储 管理 技术 。 由 于 分 页 技术 的 普及 ,我 
们 会 对 该 技术 进行 更 详细 的 讨论 。 无 论 如 何 , 当前 流行 的 存储 技术 忽视 分 段 技术 也 许 是 一 个 错误 。 
我 们 将 在 该 章 讨 论 分 段 技术 ,但 是 ,最 佳 可 靠 段 式 存储 的 例子 还 是 Multics 系统 。 第 11 章 的 实验 练习 
涉及 了 UNIX 共享 内 存 机 制 ,在 第 12 章 , 实 验 练习 涉及 了 Windows 存储 映射 文件 。 

第 13 章 描述 了 文件 管理 。 对 比 操作 系统 类 图 书 的 惯用 做 法 ,文件 管理 部 分 显得 有 些 少 ,这 是 因为 它 
不 像 进 程 管理 和 存储 管理 那样 难以 理解 。 在 实验 练习 中 提供 了 一 种 详细 观察 文件 管理 的 手段 。 该 
部 分 讨论 在 第 16 章 中 又 有 所 延伸 ,其 中 涉及 到 远程 文件 。 实 验 练习 可 以 在 UNIX 环境 下 实现 ,也 可 
以 在 Windows 下 实现 。 做 这 些 练习 是 有 挑战 性 的 ,因为 工作 量 非 常 大 (不 是 因为 文件 系统 的 复杂 
性 )。 

第 14 章 提供 了 保护 机 制 和 安全 策略 的 一 般 性 讨论 。 虽 然 其 中 多 数 技术 怡 好 与 文件 .存储 器 以 及 其 
他 资源 有 着 密切 联系 ,但 它 可 能 被 认为 应 该 属于 进程 管理 讨论 的 范围 。 在 大 家 熟悉 了 进程 .存储 器 
以 及 文件 管理 器 后 ,可 能 更 容易 接受 保护 和 安全 的 需要 。 

B 15~17 章 介绍 了 支持 分 布 式 计算 的 技术 。 分 布 式 计算 是 现代 操作 系统 的 一 个 主要 方面 ,并 且 我 
强烈 地 感到 在 操作 系统 的 所 有 介绍 中 都 应 该 涵盖 这 个 重要 的 主题 。 这 一 章 的 实验 练习 是 关于 TCP/ 
IP 协议 和 远程 过 程 调用 的 。 

第 18 章 是 全 新 的 一 章 , 它 描述 了 如 何 构 造 现代 分 布 式 程序 设计 运行 时 系统 以 便 扩 大 内 核 服务 。 这 
是 一 个 令 人 兴奋 的 领域 , 它 与 操作 系统 、 编 程 语言 .编译 器 以 及 分 布 式 编程 都 有 关联 。 

第 19 章 的 篇 幅 很 大 , 它 从 软件 的 设计 和 实现 角度 重新 考虑 了 所 有 的 操作 系统 技术 。 这 一 章 试图 措 
述 操作 系统 设计 师 必须 做 的 高 级 设计 选择 ,并 指导 学 生 如 何 使 用 学 过 的 方法 进行 成 功 的 操作 系统 设 
计 。 这 一 章 中 包含 了 Mach 操作 系统 的 细节 性 讨论 。 

第 20、21 章 分 别 是 Linux 和 Windows NT/2000/XP 操作 系统 的 实例 研究 。 本 书 提供 了 这 两 种 操作 系 
统 的 许多 实现 实例 ,这 一 章 为 每 一 种 操作 系统 提供 了 统一 的 描述 。 





最 后 ,尽管 我 尽 了 最 大 的 努力 ,但 要 将 书 中 的 内 容 组 织 成 满足 每 个 老师 的 期 望 是 不 可 能 的 。 本 书 反映 了 
我 授课 时 的 内 容 安排 ,然而 ,你 们 也 可 以 根据 自己 的 需要 重新 组 织 这些 内 容 。 

祝愿 读者 学 习 项 利 

现在 ,万 维 网 上 有 大 量 的 有 关 操 作 系 统 方面 的 信息 ,建议 学 生 充分 利用 万 维 网 。 在 这 一 版 中 ,我 给 出 了 
一 些 网 址 ,上 面 有 许多 相关 信息 ,例如 标准 化 组 织 的 一 些 材 料 。 

最 后 ,感谢 你 考虑 将 本 书 作为 教材 。 非常 欢迎 你 的 提问 、 评 论 、 批 评 和 建议 (我 将 以 积极 的 方式 接受 你 的 
批评 )。 你 可 以 通过 Gary. Nutt@colorado. edu 和 我 联系 。 


致谢 


很 多 人 帮助 编辑 和 改进 过 本 书 。 首先 是 那些 科罗拉多 大 学 的 学 生 们 ,Jason Casmira、Don Lindsay、 Ann 
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Root 以 及 Sam Siewert 都 是 非常 好 的 教学 助手 ,他 们 设计 了 实验 练习 以 及 解决 方案 ,并 且 帮 助 逐渐 完善 了 本 
43, Scott Brandt 对 如 何 组 织 书 中 的 内 容 提供 了 十 分 有 益 的 见解 。Adam Griff 花费 了 许多 时 间 帮 助 完善 对 
Linux 系统 的 介绍 Scott Morris 帮 我 准备 好 了 Windows NT 机 器 ,并 且 提 供 了 关于 它 的 运行 机 制 的 权威 提 
ZN o 

Addison-Wesley 从 其 他 学 院 安排 了 更 多 学 生 检 查 手 稿 : 蒙 大 拿 州立 大 学 的 Eric F. Stuckey. Shawn Lau- 
zon, Dan Dartman 和 Nick Tkach, 以 及 Berbee 信息 网 络 公 司 的 Jeffery Ramin。 有 很 多 老师 花费 了 大 量 时 间 来 
查看 草稿 ,或 者 对 本 书 的 组 织 方式 和 内 容 的 改进 提出 建议 :Divy Agrawal( 加 利 福 尼 亚 大 学 圣 芭 芭 拉 分 校 ); 
Viadamir Akis( 加 州 大 学 洛杉矶 分 校 ); Kasi Anantha (2638 R MW a7 AA) ; Charles J. Antonelli 密歇根 大 学 ); 
Lewis Barnett( 里 奇 蒙 大 学 ) ;Lubomir F，Bic( 加 利 福 尼 亚 大 学 Irvine 分 校 ) ; Paosheng Chang (朗讯 科技 公司 ); 
Randy Chow( 佛 罗 里 达 大 学 );Wesley J]，Chun,Carolyn J. Crouch( 明 尼 苏 达 大 学 Duluth 分 校 ) ; Peter G. Drexel 
(普利茅斯 州立 学 院 );Joseph Faletti, Gary Harkin( 蒙 大 拿 州 立 大 学 );Sallie Henry 博士 (弗吉尼亚 理工 大 学 ); 
Mark A. Holliday( 西 卡罗来纳 大 学 );Marty Humphrey( 弗 吉 尼 亚 大 学 );Kevin Jeffay( 北 卡罗来纳 大 学 Chapel 
Hill 分 校 );Phil Kearns( 威 廉 与 玛丽 学 院 );Qiang Li( 圣 克拉 拉 大 学 ); Darrell Long( 加 州 大 学 圣 克 鲁 兹 分 校 ); 
Junsheng Long, Michael Lutz( 罗 切 斯 特 理工 学 院 ); Carol MecNamee( 萨 克拉 门 托 州立 大 学 ); Donald Miller( 亚 
利 桑 那州 立 大 学 );Jim Mooney( 西 弗吉尼亚 大 学 );Ethan V. Munson( 威 斯 康 星 大 学 密尔沃基 分 校 ); Deborah 
Nutt, Douglas Salane(John Jay 学 院 );Henning Schulzrinne( 哥 伦比 亚 大 学 );C. S. (James) Wong( 旧 金山 州立 
大 学 ); 以 及 Salih Yurttas( 得 克 萨 斯 A&M KS). * 

最 后 ,在 出 版 这 本 书 的 过 程 中 ,Addison-Wesley 的 编辑 部 以 及 几 个 自由 作家 顾问 也 付出 了 无 法 估量 的 努 
Jls 在 第 1 版 中 , Christine Kulke、 Angela Buenning、Rebecca Johnson, Dusty Bernard, Laura Michaels, Pat Un- 
ubun、Dan Joraanstad 以 及 Nate McFadden 都 提供 了 宝贵 的 帮助 和 指导 。 第 1 版 的 责任 编辑 Carter Shanklin 对 
如 何 编 写本 书 有 一 种 先 见 之 明 , 并 且 我 受 惠 于 他 对 第 1 版 的 内 容 编排 所 做 出 的 巨大 努力 。 

第 2 版 的 责任 编辑 Maite Suarez-Rivas 促成 了 在 这 一 版 本 中 包含 实验 练习 ,以 及 将 应 用 的 和 概念 性 的 内 
容 紧 密 地 集成 在 一 起 。Maité 和 她 的 助手 Lisa Hague, Molly Taylor 以 及 Jason Miranda 都 不 知 疲倦 地 工作 以 
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如 图 1-1 所 示 ， 操 作 系统 (OS) 就 像 是 指挥 者 ， 它 协调 计算 机 所 有 的 组 件 ， 并 使 得 各 个 组 件 能 依照 某 
个 计划 协同 工作 。 当 管弦 乐队 热身 时 ， 所 有 的 乐器 会 产生 杂音 ， 但 是 ， 当 指挥 者 进行 指挥 时 ， 所 有 的 乐器 
会 协调 工作 并 产生 一 组 令 人 愉快 的 声音 。 指 挥 者 设 定 音 乐 的 节奏 ， 用 信号 通知 不 同 的 乐器 ， 控 制 管弦 乐队 
的 各 个 不 同 乐器 的 音量 等 。 同 样 ， 操 作 系 统 将 计算 机 不 同 的 组 件 分 配给 不 同 的 程序 ， 同 步 各 个 程序 的 活 
动 ， 并 提供 必要 的 机 制 使 得 程序 能 协调 地 执行 。 
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图 1-1 操作 系统 作为 乐队 指挥 
注 : 作为 计算 机 系统 中 最 关键 的 软件 之 一 ， 操 作 系 统 已 获得 了 很 高 的 赞誉 ， 只 有 非常 有 技巧 和 有 经 验 的 程序 员 
可 以 设计 和 修改 计算 机 操作 系统 。 


效率 和 功能 是 一 个 操作 系统 可 用 的 关键 因素 。 操 作 系统 的 效率 为 计算 机 上 所 有 软件 的 性 能 提高 提供 了 
平台 ， 研 究 操作 系统 的 一 个 最 重要 的 原因 是 学 习 如 何 获得 最 好 的 性 能 。 另 外 ， 操 作 系统 提供 了 一 系列 功能 
以 支持 用 户 程序 的 执行 。 提 供 较 少 功能 的 高 性 能 操作 系统 实际 上 会 迫使 应 用 程序 做 更 多 的 工作 。 这 本 书 将 
教 你 如 何 更 有 效 地 使 用 系统 的 功能 。 尤 其 是 ， 你 必须 理解 系统 是 如 何 设计 的 ， 这 样 你 才 可 能 在 编程 中 充分 
使 用 系统 的 功能 。 l 

我 们 将 探讨 在 操作 系统 设计 中 出 现 的 问题 ， 以 及 分 析 和 解决 这 些 问题 的 各 种 方法 。 所 有 的 操作 系统 都 
是 在 各 种 不 同 的 限制 条 件 和 环境 下 设计 的 ， 设 计 的 结果 往往 反映 在 系统 的 应 用 编程 接口 中 。 设 计 可 能 是 不 
连续 的 、 不 规则 的 ， 或 者 是 逻辑 上 自 相 矛盾 的 。 如 果 你 理解 了 隐藏 在 接口 后 的 相关 设计 ， 你 就 会 明白 这 种 
设计 决策 的 合理 性 ， 就 可 以 更 好 地 使 用 操作 系统 。 你 对 操作 系统 了 解 越 多 ， 你 就 会 发 现 它们 仍然 存在 设计 
缺陷 。 本 书 将 教会 你 如 何 避 开 这 些 设计 缺陷 ， 并 由 此 改进 你 自己 的 操作 系统 设计 模型 。 通 过 理解 设计 中 的 
问题 和 决策 ， 以 及 对 一 些 问题 的 权衡 处 理 ， 你 将 能 够 更 好 地 利用 一 个 操作 系统 的 设计 去 编写 软件 。 

本 章 讲解 什么 是 操作 系统 及 其 发 展 与 现状 。 首 先 ， 将 触及 所 有 软件 环境 ， 从 而 使 你 看 到 操作 系统 在 其 
中 的 地 位 。 然 后 ， 将 介绍 现代 操作 系统 的 要 求 一 一 抽象 和 共享 ， 以 及 它们 出 现 后 的 情况 。 最 后 ， 考 察 流行 
操作 系统 的 策略 ， 看 一 下 它们 是 如 何 影 响 现代 操作 系统 提供 的 服务 。 


1.1 计算 机 与 软件 


计算 机 系统 由 硬件 和 软件 组 成 ， 它 们 结合 在 一 起 形成 了 解决 一 些 特定 问题 的 工具 。 根 据 应 用 目的 的 不 
同 ， 软 件 是 有 区 别 的 。 应 用 软件 是 设计 用 于 解决 一 个 专门 问题 的 。 例 如 ， 库 存 控制 应 用 软件 就 是 用 计算 机 
跟踪 和 报告 一 个 公司 的 存货 情况 的 。 电 子 邮 件 软件 则 使 人 们 可 以 使 用 它 来 相互 通信 。 文 档 编辑 程序 为 文本 
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文档 的 编辑 和 排版 提供 了 方便 。 电 子 制 表 软 件 允许 用 户 存储 和 操纵 信息 来 提供 决策 支持 。 总 之 ， 任 何 计算 
机 的 价值 可 以 通过 应 用 软件 的 价值 来 评定 。 任 何人 或 公司 买 计算 机 是 为 了 解决 特定 于 他 们 需求 的 信息 处 理 
问题 。 正 如 图 1-2a 所 示 ， 计 算 机 终端 用 户 所 看 到 的 是 应 用 软件 。 任 何其 他 软 硬 件 只 是 需要 运行 这 个 应 用 软 
件 的 总 开销 的 一 部 分 。 


malloc() open() 
fork () 


前 切 en 
发 送 
保存 





a) 终端 用 户 视 角 b) 应 用 程序 员 视 角 c) 操作 系统 程序 员 视 角 


图 1-2 计算 机 透视 图 
注 : 终端 用 户 、 应 用 程序 员 以 及 系统 程序 员 使 用 计算 机 系统 的 不 同 视角 。 终端 用 户 使 用 应 用 软件 ， 应 用 程序 员 
利用 系统 软件 来 编写 应 用 程序 ， 操 作 系 统 程序 员 使 用 硬件 来 实现 系统 软件 。 


系统 软件 提供 一 个 一 般 的 编程 环境 ， 从 而 程序 员 可 以 生成 特定 的 应 用 程序 以 适应 他 们 的 客户 的 需要 。 
编程 环境 由 程序 设计 工具 (如 编辑 器 和 编译 器 ) 和 抽象 (如 文件 和 对 象 ) 组 成 。 应 用 程序 员 使 用 系统 软 
件 ， 包括 了 操作 系统 ， 来 为 终端 用 户 提供 一 系列 的 应 用 ( 见 图 1-2b)。 从 应 用 程序 员 的 视角 来 看 ， 系 统 软 
件 非常 重要 ， 因 为 它 界定 了 程序 实现 的 环境 。 然 而 ， 从 用 户 的 视角 看 ， 系 统 软件 还 不 如 硬件 的 电源 那么 重 
要 。 系 统 软件 和 硬件 为 应 用 软件 的 编写 和 有 效 使 用 提供 了 支持 。 系 统 软件 应 该 为 应 用 程序 员 提 供 尽 可 能 多 
的 功能 。 但 尽 可 能 为 终端 用 户 提供 通用 的 功能 。 通 用 的 功能 也 是 最 有 效 的 。 为 了 使 机 器 资源 (如 处 理 器 时 
间 和 内 存 ) 更 多 地 花费 在 应 用 程序 上 ， 系 统 软件 对 机 器 资源 的 使 用 应 该 尽 可 能 最 少 。 

通过 去 掉 有 关 的 系统 软件 ， 我 们 可 以 使 系统 软件 对 资源 的 使 用 减少 。 但 是 应 用 软件 必须 提供 本 应 该 是 
系统 软件 所 实现 的 功能 。 想 像 一 下 ， 你 仅仅 为 了 读 写 一 个 磁盘 设备 就 不 得 不 实现 一 个 文件 系统 。 我 们 现在 
知道 了 我 们 需要 系统 软件 ， 问 题 是 需要 多 少 系 统 软件 及 多 少 功能 ? Macintosh 系统 软件 提供 了 一 套 编程 工 
有 具 ， 微 软 编程 环境 也 提供 了 一 套 不 同 的 工具 ，Java 也 有 自己 的 一 套 系统 软件 功能 ，UNIX 系统 提供 了 另 一 
套 不 同 的 编程 工具 集 。 

一 般 系统 软件 设计 的 最 初 动机 ， 主 要 是 提供 一 些 程序 员 可 以 使 用 的 功能 以 备 应 用 软件 调用 。 后 来 ， 系 
统 软件 (特别 是 操作 系统 ) 实现 了 另 一 个 重要 的 目的 : 使 应 用 软件 能 够 以 有 序 的 方式 去 共享 硬件 。 例 如 ， 
一 个 程序 正在 从 磁盘 读数 据 而 另 一 个 程序 在 计算 一 个 数 的 平方 根 。 共 享 提高 了 系统 整体 的 性 能 ， 它 让 不 同 
的 程序 同时 去 使 用 计算 机 的 不 同 部 件 ， 通 过 减少 所 有 程序 执行 的 时 间 ， 从 而 提高 了 系统 的 性 能 。 一 般 说 
来 ， 操 作 系统 是 系统 软件 的 一 部 分 ， 操 作 系统 保证 共享 的 实现 最 安全 和 有 效 ， 它 是 “最 贴近 硬件 ”的 软件 
实现 ， 其 他 的 系统 软件 和 所 有 的 应 用 软件 把 操作 系统 作为 使 用 硬件 的 一 个 界面 。 操 作 系 统 程序 员 编 写 控制 
硬件 的 软件 (实现 共享 和 抽象 )， 给 应 用 程序 员 提 供 一 个 可 以 使 用 的 软件 环境 ( 见 图 1-2c)。 


1.1.1 通常 的 系统 软件 


系统 软件 创建 了 两 种 环境 : 首先 是 允许 用 户 与 计算 机 进行 交互 ， 其 次 为 应 用 程序 提供 可 以 使 用 的 工具 
和 插件 。 为 终端 用 户 和 程序 员 提供 了 他 们 可 以 使 用 的 、 具 有 人 性 化 的 计算 机 界面 的 工具 ， 如 电子 桌面 和 文 
本 编辑 器 。 终 端 用 户 管理 他 们 的 邮件 、 文 档 、 数 字 信 息 ， 而 程序 员 管 理 他 们 的 软件 。 

在 以 前 的 程序 设计 课程 上 ， 你 学 会 了 使 用 系统 软件 提供 的 应 用 编程 接口 (API) 来 编写 程序 ( 见 
图 1-3)。 编 译 器 将 程序 翻译 成 适合 运行 的 形式 ， 装 载 器 将 程序 复制 到 内 存 执行 ， 类 库 用 来 完成 一 些 功能 ， 
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如 格式 化 输入 及 输出 或 创建 对 象 。 例 如 在 C 和 C++ 程序 设计 环境 中 ， 一 些 重要 的 工具 是 在 C 运 行 时 库 系 
统 软件 中 〈 通 过 使 用 不 同 种 类 的 .h 文件 访问 ) 实现 的 。 包 括 : 
m 标准 的 输入 /和 输出 (1/0) 库 提 供 过 程 实现 数据 流 的 组 
冲 输 入 /和 输出， 如 printf () 和 scanf ()。 
m 数学 库 提供 计算 功能 的 函数 ， 如 sqrt ()。 
m 图 形 库 提供 如 drawCircle () 之 类 以 位 图 显示 方式 泻 
染 图 像 的 函数 。 
其 他 的 系统 软件 实现 了 系统 的 逻辑 组 件 。 类 库 为 应 用 程 
序 员 提供 了 大 量 的 函数 ， 能 被 应 用 程序 调用 ， 这 些 组 件 是 计 
算 环境 必 不 可 少 的 部 分 。 下 面 是 这 些 组 件 的 例子 
E 命令 行 解释 程序 (也 称 作 外 过 程序 ) 是 一 个 基于 文本 
的 程序 ， 用 户 可 以 利用 它 来 与 系统 软件 进行 交互 。 用 
户 在 Windows 下 使 用 dir 命令 ，UNIX 下 使 用 1s 命 
S, 命令 行 解释 程序 就 会 对 它们 进行 解释 ， 引 起 系统 
软件 列 出 目录 下 的 条 目 。UNIX 系统 的 sh 程序 和 csh 
程序 ，Linux 的 bash 程序 和 Windows 的 cmd.exe 程序 
都 是 命令 行 解释 程序 的 例子 。 图 1-3 使 用 系统 软件 
图 窗口 系统 也 是 系统 软件 ， 它 为 应 用 程序 提供 了 虚拟 终 注 : 系统 软件 提供 了 范围 广泛 的 服务 ， 从 编 
端 。 其 中 窗口 被 冠 以 “虚拟 ”是 因为 应 用 程序 可 以 用 译 器 到 数据 库 管理 系统 等 软件 都 包含 在 
函数 读 写 窗口 ， 好 像 该 窗口 是 一 个 终端 设备 似 的 ， 尽 内 。 应 用 程序 员 通 过 调用 系统 软件 的 应 
管 并 没有 特定 的 物理 终端 与 窗口 相关 联 。 系 统 软件 对 用 编程 接口 来 调用 系统 服务 。 操 作 系统 
这 些 虚 拟 终端 的 操作 进行 映射 ， 使 它们 对 应 于 一 个 屏 是 系统 软件 的 一 部 分 ， 它 像 其 他 系统 软 
幕 的 特定 物理 区 域 ， 将 应 用 软件 对 虚拟 终端 的 操作 ， 件 一 样 ， 也 为 程序 员 提供 了 一 套 应 用 编 
转换 成 相应 在 物理 终端 上 的 操作 。 一 台 物理 终端 可 以 BORMAN. 
支持 几 个 虚拟 终端 。 例 如 ，Macintosh desktop，the Microsoft Windows desktop， 以 及 Linux 的 Gnome 
desktop 都 是 窗口 系统 。 
m 数据 库 管理 系统 (DBMS) 可 以 将 信息 保存 在 计算 机 的 永久 性 存储 设备 中 。 数 据 库 系 统 提供 了 抽象 
的 数据 类 型 〈 称 为 模式 〈schema)); 并 根据 模式 定义 ， 生 成 优化 的 专门 应 用 程序 ， 可 用 于 对 数据 的 
有 效 查询 和 更 新 。 应 用 程序 使 用 的 复杂 数据 结构 实例 越 多 ， 使 用 数据 库 管 理 系统 的 好 处 就 越 大 。 数 
. 据 库 管 理 系统 的 例子 包括 Oracle 或 MySQL 关系 数据 库 系统 。 
购买 计算 机 的 个 人 和 组 织 是 为 了 解决 他 们 的 信息 处 理 问题 。 例 如 ， 商 人 买 计算 机 是 为 了 处 理 记 帐 信 
息 ; 军事 组 织 买 计算 机 是 为 了 计算 弹 导 导弹 的 轨道 ; 个 人 买 计算 机 是 为 了 玩 游戏 和 网 上 冲浪 。 买 计算 机 的 
每 个 原因 都 界定 了 一 个 应 用 领域 ， 也 就 是 计算 机 要 解决 的 问题 集合 。 在 记 帐 应 用 领域 中 ， 利 息 程序 可 以 开 
发 票 ， 并 跟踪 帐户 余额 等 。 对 弹道 导弹 的 轨道 进行 计算 的 应 用 领域 中 ， 程 序 可 以 用 来 解决 有 关 瞄 准 一 个 发 
射 物 的 问题 。 在 个 人 计算 机 系统 中 ， 程 序 用 来 玩 游戏 ， 对 文档 进行 文本 编辑 ， 以 及 用 web 浏览 器 上 网 。 
一 些 系统 软件 ， 如 图 形 库 ， 就 是 专门 应 用 于 一 个 特定 领域 的 ， 而 在 其 他 的 领域 可 能 是 没有 用 处 的 ， 其 
他 系统 软件 ， 如 关系 型 数据 库 ， 它 的 应 用 就 很 广泛 ， 它 可 以 支持 许多 不 同 的 应 用 领域 的 程序 。 在 数据 库 的 
例子 中 ， 可 以 为 不 同 的 领域 设计 不 同 的 数据 库 管 理 系统 。 当 一 种 数据 库 技术 被 选 定 用 于 某 个 领域 ， 它 会 有 
针对 性 地 进一步 进行 专门 化 的 设计 ， 以 更 好 地 支持 某 个 子 领域 ， 例 如 用 于 图 像 处 理 系统 和 人 工 智能 专家 系 
统 等 。 甚 至 在 图 像 处 理 的 数据 库 系统 软件 中 ， 为 支持 特定 的 应 用 ， 可 能 进行 更 进一步 的 专门 化 设计 。 例 
如 ， 一 个 图 像 数据 库 可 能 只 是 用 于 支持 单 色 的 地 形 学 图 像 处 理 。 
操作 系统 是 如 何 区 别 于 其 他 的 系统 软件 的 呢 ? 这 里 描述 的 是 一 些 基本 的 区 别 。 随 着 你 对 操作 系统 更 深 
入 地 学 习 ， 你 将 了 解 到 更 多 的 区 别 。 
n 操作 系统 直接 作用 于 硬件 之 上 ， 它 为 其 他 系统 软件 和 应 用 软件 提供 接口 。 
里 通用 的 操作 系统 是 与 应 用 领域 无 关 的 。 这 意味 着 操作 系统 可 支持 很 多 应 用 领域 软件 ， 如 库存 管理 软 
件 以 及 计算 飞机 机 要 的 空气 动力 特性 的 软件 等 。 














B 应 用 程序 使 用 操作 系统 所 提供 的 资源 抽象 ， 从 而 使 用 硬件 资源 部 件 。 
B 操作 系统 允许 不 同 的 应 用 程序 通过 它 所 提供 的 资源 管理 策略 来 共享 硬件 资源 。 


1.1.2 资源 抽象 


系统 软件 隐藏 了 下 层 硬件 的 操作 细节 。 这 意味 着 用 户 不 必 知 道 更 多 的 硬件 知识 就 可 以 使 用 计算 机 。 将 
这 种 想法 加 以 扩展 ， 通 过 提供 一 个 对 硬件 部 件 操作 的 抽象 模型 ， 从 而 使 一 个 应 用 程序 员 可 以 相对 容易 地 去 
使 用 计算 机 硬件 资源 。 抽 象 模型 不 但 简化 了 应 用 程序 员 对 硬件 的 控制 使 用 ， 同 时 也 限制 了 对 该 硬件 部 件 控 
制 使 用 的 灵活 性 。 在 日 常生 活 中 ， 我 们 经 常会 碰 上 这 种 抽象 。 就 拿 开 汽车 来 说 ， 你 没 必要 理解 发 动机 、 刹 
车 以 及 驾驶 的 内 部 原理 。 如 果 汽 车 具有 自动 换 档 功能 ， 你 就 不 必 了 解 汽车 是 如 何 换 档 的 (即使 有 档 位 )。 
由 于 有 “程序 设计 界面 ”的 抽象 ， 这 是 完全 可 能 的 。 汽 车 出 现 的 最 初 半 个 世纪 里 ， 只 能 使 用 手工 操作 换 
档 。 这 意味 着 任何 人 如 果 想 开 汽 车 的 话 ， 他 必须 了 解 离合 器 和 不 同 的 齿轮 一 一 小 的 齿轮 速度 较 低 而 大 齿轮 
速度 高 。 随 着 机 械 抽象 级 别 的 提高 ， 司 机 仅 需 要 用 按钮 如 “P”、“D”、“R” 对 档 位 进行 选择 。 其 他 的 档 位 
(中 档 和 低档 ) 可 能 从 不 被 使 用 。 今 天 ， 司 机 能 关注 于 更 高 级 的 功能 的 使 用 ， 如 最 佳 道路 选择 、 速 度 、 避 
免 与 其 他 汽车 相 磁 及 车 载 手机 使 用 等 ， 而 不 是 主要 专注 于 转弯 、 刹 车 、 换 档 。 

在 计算 机 系统 中 ， 抽 象 可 以 用 来 消除 必须 要 处 理 的 一 些 乏 味 的 细节 。 如 果 没 有 将 字符 写 到 显示 器 上 
(如 打印 函数 ) 这 一 层 抽象 ， 要 想 在 视频 显示 器 上 用 12 磅 大 小 Arial Fkh “Helo, wold” FHE, W 
必须 要 了 解 设 定 屏幕 位 图 的 许多 细节 。 而 C 程序 员 只 需要 知道 printf () 函数 和 stdio 类 库 ， 不 用 了 解 所 
有 其 他 的 细节 。 程 序 员 不 用 关心 底层 的 实现 细节 ， 可 以 集中 精力 编写 代码 来 解决 特定 的 问题 。 

抽象 在 简化 了 应 用 程序 员 控 制 硬件 的 方式 的 同时 ， 也 限制 了 操纵 特定 硬件 的 灵活 性 。 通 用 性 是 有 代价 
的 ， 也 就 是 说 ， 当 一 些 操作 变 得 容易 实现 时 ， 其 他 的 一 些 操作 就 无 法 使 用 这 种 抽象 来 完成 。 仔 细 考 虑 一 个 
自动 的 银行 出 纳 机 时 你 就 会 明白 。 例 如 ， 一 个 自动 的 银行 出 纳 机 可 以 提供 这 样 一 种 抽象 操作 ， 人 允许 客户 按 
一 个 按钮 ， 就 可 以 从 他 的 帐户 中 取出 特定 数量 的 钱 。 假 定 出 纳 机 仅 提 供 了 几 种 抽象 操作 ， 可 以 从 帐户 上 提 
取 20 美元 、40 美元 、100 美元 或 200 美元 。 这 样 客户 就 不 能 提取 到 30 美元 ， 机 器 操作 起 来 很 容易 ， 但 不 
灵活 。 

计算 机 系统 中 有 很 多 不 同 种 类 的 硬件 部 件 ， 被 作为 资源 (resource) 可 以 在 应 用 程序 中 使 用 。 任 何 一 种 
特定 的 资源 ， 例 如 一 个 磁盘 驱动 器 ， 都 有 一 个 通用 的 接口 ， 其 中 定义 了 程序 员 如 何 使 用 该 资源 来 完成 需要 
的 操作 。 一 个 抽象 的 接口 比 实际 的 硬件 接口 简单 得 多 ， 就 像 前 面 例子 中 的 虚拟 终端 一 样 。 抽 象 是 在 系统 软 
件 中 实现 的 ， 使 用 抽象 编程 可 以 使 程序 员 在 使 用 一 种 资源 时 ， 无 需 去 了 解 它 的 物理 接口 实现 ， 而 只 关心 它 
的 抽象 接口 就 可 以 了 (抽象 屏 项 了 设备 的 具体 操作 ) ， 从 而 程序 员 可 以 集中 精力 于 高 层次 的 一 些 问题 上 。 

很 多 情况 下 ， 类 似 的 资源 可 以 被 抽象 成 一 个 通用 (common) 抽象 资源 接口 。 例 如 ， 系 统 软件 可 以 将 
软磁盘 和 硬 磁 盘 操 作 抽象 成 一 个 抽象 的 磁盘 接口 ， 当 程序 员 编程 时 ， 只 需要 知道 使 用 磁盘 抽象 就 可 以 了 ， 
而 无 需 关心 所 用 磁盘 的 动作 行为 ， 以 及 磁盘 输入 /输出 的 具体 细节 。 就 开 汽车 来 说 ， 抽 象 也 是 十 分 常见 的 ， 
你 可 以 租 一 辆 汽车 并 立即 驾驶 它 ， 然 而 这 辆 汽车 你 可 能 从 没 见 过 。 出 租车 里 的 抽象 和 你 自己 汽车 的 抽象 是 
一 样 的 。 如 果 这 种 抽象 不 是 一 样 的 话 ， 想 像 一 下 可 能 产生 的 灾难 场景 ， 有 些 汽车 的 方向 盘 顺 时 针 转 时 ， 车 
向 左 开 ， 而 有 的 车 却 向 右 开 。 

在 设计 系统 软件 的 时 候 ， 你 必须 首先 为 资源 定义 一 组 普通 的 抽象 ， 它 应 是 非常 直观 的 并 适合 于 多 个 应 
用 领域 。 磁 盘 设备 的 文件 抽象 就 是 这 样 的 一 个 例子 。 好 的 抽象 使 得 程序 员 十 分 容易 地 理解 和 使 用 ， 也 使 得 
程序 员 容 易 执行 对 资源 的 各 种 操作 。 

面向 对 象 的 程序 员 使 用 类 层次 进行 工作 时 采用 了 多 级 抽象 。 基 类 定义 了 对 象 最 基本 的 抽象 操作 ， 子 类 
为 这 个 家 族 特 定 的 成 员 重 新 定义 操作 。 下 面 这 个 磁盘 设备 抽象 的 例子 展示 了 高 于 一 级 抽象 的 使 用 。 一 旦 一 
个 硬件 部 件 已 经 简化 为 一 个 接口 ， 那 么 在 高 一 层次 的 系统 软件 中 ， 可 以 再 定义 对 该 资源 的 抽象 ， 从 而 成 为 
一 个 更 高 层 的 抽象 。 最 初 的 磁盘 块 模式 操作 ， 抽 象 成 了 磁盘 肩 区 操作 ， 又 进一步 通用 化 成 使 用 整数 块 地 址 
操作 。 而 整数 地 址 化 的 块 ， 又 抽象 成 一 个 包含 逻辑 字 节 流 的 相关 块 的 列表 。 可 以 看 到 ， 使 用 “资源 ”而 不 
用 “硬件 部 件 ” 的 原因 ， 是 为 了 抽象 计算 机 部 件 (物理 资源 )， 或 者 抽象 软 部 件 ， 而 软 部 件 是 一 种 抽象 资 
源 。 
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示例 : 磁盘 设备 抽象 
通过 考察 对 磁盘 设备 的 输出 操作 的 多 级 抽象 ， 可 以 发 现 资源 抽象 背后 隐藏 的 思想 。 磁 盘 设 备 可 通过 软 
件 操作 从 计算 机 的 内 存 拷贝 一 内 存 块 信息 到 设备 的 缓存 中 OLA 1-4a): 


load (block, length, device); 

移动 读 / 写 头 到 磁盘 表面 特定 的 区 域 ; 

seek (device, track); 

把 一 块 数据 从 缓存 中 写 人 设备 : 

out (device, sector); 

若 要 把 信息 从 内 存 块 写 人 磁盘 ， 那 就 需要 一 系列 的 操作 ， 实 现 如 下 ， 


load (block, length, device); 
seek (device, 236); 


out (device, 9); 


一 个 简单 的 抽象 ( 见 图 1-4b) 会 打包 这 些 命令 形成 一 个 write () 过 程 (包括 所 有 其 他 必须 补充 的 命 
令 )， 内 容 如 下 : 

void write(char *block, int len, int device, int track, 

int sector) 

{ 

load(block, len, device); 

seek(device, 236); 

out(device, 9); 

} 

磁盘 上 的 数据 块 地 址 是 用 磁道 号 和 肩 区 号 指定 的 ， 如 load 指令 中 的 236 和 out 指令 中 的 9。 高 层次 的 
抽象 要 将 特定 的 块 地 址 进行 转换 ， 使 得 可 以 使 用 一 个 正 数 地 址 而 不 必 使 用 特定 磁盘 的 地 址 (如 seek () 函 


数 中 的 236 磁道 和 out O 函数 中 的 9 扇 区 )。 这 就 允许 程序 员 在 指定 写 磁 盘 上 的 某 个 部 分 时 ， 只 使 用 逻辑 
地 址 ， 而 无 需 留 意 它 们 的 物理 位 置 。 下 面 是 一 个 输出 操作 : 


write (block, 100, device, 236, 9); 
又 可 写 为 ; 

write (block, 100, device, 3788); 

一 个 更 高 层次 的 抽象 会 提供 系统 软件 ， 把 磁盘 作为 文件 进行 存储 操作 。 假 定 系 统 软件 中 规定 了 文件 标 
WF (file identification/fileID) 作为 磁盘 抽象 ， 那 么 会 有 一 个 相应 的 库 ， 如 C 语 言 中 的 stdio 库 ， 库 中 提 


供 了 写 一 个 整 型 变量 datum (存储 在 一 个 小 内 存 块 中 ) 到 设备 上 的 函数 ， 这 会 从 文件 开头 一 个 隐 含 的 偏 移 
位 置 开 始 写 数据 。 程 序 员 可 以 用 下 面 的 操作 实现 写 数据 到 磁盘 上 ( 见 图 1-4c): 


fprintf (fileID, “%d“, datum); 


BORA FIPE REO FE T REAP AOA AB BHE, 只 不 过 是 在 实现 抽象 的 系统 软件 中 ， 有 一 些 部 分 
不 同 而 已 。 这 种 方式 的 抽象 将 贯穿 于 本 书 。 














void write( ){ 
load(---); 
seek(-+-); 
out(++-); 


int fprint£(---) { 





write(---); 





a) 直接 控制 b) write( ) 抽象 c) fprint£() 抽象 


图 1-4 磁盘 抽象 
TE: 图 中 是 将 信息 写 到 磁盘 设备 上 的 三 种 不 同 的 方式 。 在 a) 图 中 ， 软 件 直接 操纵 硬件 来 选择 块 地 址 ， 然 后 用 
out () 调用 将 信息 写 到 设备 上 。 在 b) AP, HAM write () 函数 包装 了 机 器 指令 。 它 也 将 块 信息 写 到 设 
备 上 ， 但 它 比 a) 更 容易 使 用 。 在 c) 图 中 ，C 运行 时 库 函 数 fprintf () 对 write () 函数 做 了 抽象 ， 来 完 
成 对 设备 的 输出 。 


1.1.3 资源 共享 


计算 机 由 于 它 的 计算 速度 而 出 名 。 计 算 机 能 在 几 微 秒 内 计算 出 一 个 数字 表达 式 ， 而 人 可 能 需要 花 几 分 
钟 来 解决 它 。 速 度 上 的 差别 使 得 人 误 认 为 计算 机 能 同时 执行 多 个 程序 ， 事实 上 ， 程 序 是 顺序 执行 的 。 操 作 
系统 以 非常 高 的 速率 在 各 种 程序 间 对 硬件 来 回 进行 切换 ， 从 而 导致 了 这 种 错觉 。 这 和 国际 象棋 大 师 能 同时 
和 几 个 对 手下 棋 一 样 : 国际 象棋 大 师 轮 流 和 各 个 对 手下 棋 ， 但 在 某 一 时 刻 只 和 一 个 对 手下 棋 ， 在 第 一 个 对 
手 思 索 当 前 棋盘 状态 时 ， 他 会 和 下 一 个 对 手下 棋 。 

计算 机 有 时 也 支持 真正 的 同步 操作 。 例 如 ， 一 个 程序 想 要 做 数字 计算 ， 同 时 另 一 个 想 要 读 一 个 磁盘 设 
备 ， 然后， 操作 系统 调度 硬件 以 使 得 两 个 程序 能 同时 运行 。 这 种 情况 是 可 能 的 ， 因 为 计算 机 的 处 理 单元 和 
磁盘 设备 在 物理 上 是 不 同 的 组 件 ， 可 以 同时 使 用 它们 。 

在 操作 系统 的 研究 中 ， 我 们 模糊 了 真正 的 同时 执行 和 看 起 来 是 同时 执行 这 两 种 情况 的 区 别 。 当 看 起 来 
两 个 或 多 个 程序 能 同时 执行 ， 或 者 真正 地 在 同时 执行 ， 这 两 种 情况 都 称 系统 支持 并 发 执行 (concurrent exe- 
cution)。 如 果 两 个 程序 是 真正 的 同时 执行 ， 我 们 就 称 它 为 并 行 执行 (parallel execution) 。 

并 发 和 并 行 执行 与 资源 共享 的 概念 都 相关 。 不 管 程序 是 并 发 还 是 并 行 执行 ， 它 们 都 共享 计算 机 资源 。 
操作 系统 在 抽象 机 器 间 通 过 透明 共享 的 方式 来 管理 资源 。 也 就 是 说 ， 用 户 和 应 用 程序 员 并 没有 意识 到 资源 
被 共享 。 操 作 系统 也 提供 了 一 些 机 制 使 得 运行 的 程序 可 以 显 式 共享 资源 ， 这 需要 应 用 程序 员 来 管理 共享 机 
器 资源 的 方式 。 首 先 ， 我 们 将 描述 透明 共享 然后 讨论 显 式 共 享 。 
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并 发 在 操作 系统 设计 和 应 用 程序 员 使 用 的 操作 模型 中 都 是 十 分 普遍 的 。 当 你 在 考虑 提供 给 应 用 程序 员 
和 终端 用 户 的 程序 执行 环境 时 ， 这 一 点 尤为 明显 。 多 个 程序 能 同时 执行 ， 每 一 个 看 起 来 就 好 像 在 自己 的 私 
有 计算 机 上 运行 一 样 。 这 是 通过 操作 系统 的 设计 来 完成 的 。 操 作 系统 必须 管理 计算 机 的 处 理 器 、 内 存 、 设 
备 以 及 所 有 其 他 的 抽象 资源 ， 使 得 它们 能 在 执行 的 程序 间 共 享 ， 并 将 机 器 的 抽象 (也 称 虚 拟 机 ) 呈现 给 程 
FR ( 见 图 1-5)。 每 一 个 虚拟 机 是 真正 计算 机 的 仿真 :每 个 程序 都 在 自己 的 抽象 机 器 上 运行 。 操 作 系 统 通 
过 共享 硬件 的 方式 来 实现 这 层 抽象 ， 这 些 硬件 对 程序 员 来 说 是 不 可 见 的 。 在 一 台 虚 拟 机 上 运行 的 程序 也 称 
为 进程 (我 们 将 在 第 2 章 和 第 6 章 详 述 进程 的 概念 )。 

有 两 种 共享 的 方法 用 于 创建 虚拟 机 : 空 分 复 用 共享 和 时 分 复 用 共享 。 空 分 复 用 共享 (space-multiplexed 
sharing) 表示 资源 可 以 进一步 分 割 成 两 个 或 更 多 个 不 同 的 单元 部 分 来 给 进程 使 用 。 例 如 ， 将 一 个 建筑 物 分 成 
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大 量 的 公寓 ， 然 后 将 公寓 分 配给 不 同 的 用 户 ， 这 是 一 种 空 分 复 用 的 例子 。 城 市 公交 车 是 空 分 复 用 的 另 一 个 例 
子 ， 每 个 人 由 于 都 只 坐 一 个 位 子 而 共享 汽车 的 使 用 。 在 计算 机 中 ， 虚 拟 机 〈 进 程 ) 能 够 空 分 复 用 那些 满足 如 
下 属性 的 资源 ， 即 能 够 将 资源 的 不 同 单元 同时 分 配给 不 同 进程 ， 内 存 和 磁盘 是 空 分 复 用 资源 共享 的 例子 。 





图 1-5 虚拟 机 
注 : 操作 系统 通过 创建 计算 机 的 仿真 来 为 应 用 程序 员 提 供 虚 拟 机 。 操作 系统 可 以 将 物理 机 器 同时 仿真 出 多 台 虚 
拟 机 。 


时 分 复 用 共享 (time-multiplexed sharing) 并 不 是 把 资源 进一步 分 割 成 小 的 单元 ; 相反 ， 一 个 进程 可 以 
在 一 个 短 的 时 间 片 内 独立 使 用 整个 资源 ， 其 他 进程 则 可 以 在 另外 的 时 候 使 用 这 个 资源 。 例 如 ， 公 共 场 所 停 
车 场 的 汽车 停车 位 就 使 用 了 时 分 复 用 技术 : 一 辆 汽车 在 某 一 时 间 对 停车 位 置 有 独占 权 ， 但 一 段 时 间 后 ， 第 
_ 辆 汽车 离开 了 ， 第 二 辆 汽车 占据 了 停车 位 。( 汽 车 使 用 空 分 复 用 来 选择 一 个 停靠 位 置 ， 使 用 时 分 复 用 来 
共享 单个 的 停车 位 置 .) 在 城市 交通 中 ,出 租车 就 是 一 个 时 分 复 用 共享 的 例子 。 一 个 乘客 使 用 出 租车 ， 只 
有 当 他 离开 后 ， 另 一 个 乘客 才能 使 用 它 。 在 计算 机 系统 中 ， 在 一 段 时 间 内 ， 进 程 对 整个 计算 机 资源 有 独占 


的 控制 权 。 当 时 间 片 一 用 完 ， 资源 就 被 释放 掉 并 可 以 分 
配给 另 一 个 进程 。 如 计算 机 的 处 理 器 资源 就 采用 了 时 分 
复 用 技术 。 

不 同 的 进程 能 并 发 使 用 系统 提供 的 虚拟 机 ， 操 作 系 
统 使 用 时 分 复 用 或 空 分 复 用 技术 确保 了 物理 机 器 组 件 的 
共享 。 例 如 ， 三 个 进程 的 虚拟 机 以 时 分 复 用 的 技术 共享 
处 理 器 ， 然 而 ， 一 个 进程 的 虚拟 机 可 能 在 读 磁 盘 ， 男 一 
个 进程 的 虚拟 机 正在 读 另 一 个 磁盘 ， 这 三 个 进程 利用 空 
分 复 用 的 技术 使 用 硬件 的 不 同 部 分 。 

处 理 器 的 时 分 复 用 共享 是 虚拟 机 实现 的 一 个 关键 的 
方面 ， 它 常常 是 作为 资源 共享 的 一 个 特例 来 研究 的 。 虚 
拟 机 上 的 一 个 进程 在 一 个 时 间 片 内 使 用 物理 处 理 器 ， 然 
后 操作 系统 利用 时 分 复 用 技术 ,将 处 理 器 分 配给 男 一 个 
虚拟 机 。 同 时 ， 计 算 机 的 内 存 通过 空 分 复 用 的 方式 来 进 
行 共 享 。 这 些 技术 对 共享 处 理 器 来 说 是 非常 重要 的 ， 它 
被 称 为 多 道 程序 设计 (mnultiprogramming)。 对 多 道 程序 
设计 的 研究 贯穿 了 本 书 ， 但 是 现在 我 们 用 一 种 非 形式 化 
的 方式 描述 它 LE 1-6)。 在 这 副 图 中 ， 有 NN 个 不 同 







虚拟 机 P 


一 -一 


虚 


Sd tT 


拟 机 





时 分 复 用 
物理 处 理 器 


图 1-6 多 道 程序 设计 
注 : 多 道 程序 设计 是 实现 多 个 虚拟 机 的 关键 操作 
系统 技术 。 它 通过 空 分 复 用 技术 来 完成 虚拟 
机 间 的 内 存 共享 。 使 用 时 分 复 用 技术 来 共享 
处 理 器 。 操 作 系 统 来 协调 这 些 共享 任务 。 
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的 虚拟 机 (名 为 P:，P,… ，Pk)。 操 作 系 统 将 物理 内 存 分 配给 了 NN 个 不 同 的 块 ， 然 后 为 每 一 个 虚拟 机 分 
配 一 块 。 当 Pi 被 载 人 内 存 块 时 ， 它 通过 时 分 复 用 技术 共享 处 理 器 。 每 个 进程 P; 占用 处 理 器 仅 一 个 时 间 片 ， 
但 它 一 直 占 据 着 已 分 配 的 内 存 区 域 。 

多 道 程 序 设计 能 提高 计算 机 的 性 能 吗 ? 它 不 能 提升 任何 单个 进程 的 性 能 ， 但 是 它 能 提高 整个 系统 的 性 
能 。 下 面 是 一 个 演示 这 一 概念 的 洗 汽 车 的 例子 : 有 三 辆 汽车 要 清洗 。 洗 汽车 的 三 个 操作 是 冲洗 、 擦 干 和 车 
ARR (MÆ 1-7a)。 可 以 进行 如 下 协调 ， 汽 车 1 被 洗 的 同时 汽车 2 在 做 车 内 真空 吸 尘 ， 汽 车 3 在 等 
待 ( 见 图 1-7b)。 现 在 ， 当 汽车 1 被 洗 完 后 ， 然 后 擦 干 ; 同时 ， 汽 车 2 被 洗 ， 汽 车 3 在 做 真空 吸 尘 。 当 汽 
车 1 被 擦 干 后 ， 与 汽车 2 做 擦 干 、 汽 车 3 做 清洗 同时 做 真空 吸 尘 。 当 汽车 1 做 完 真空 吸 尘 ， 汽 车 2 也 做 完 
擦 干 ， 这 两 辆 车 就 洗 完了 。 剩 下 的 唯一 工作 是 汽车 3 的 擦 干 工作 (而 水 洗 房 和 真空 吸 尘 房 就 闲 着 了 )。 注 
意 汽 车 1 和 汽车 2 使 用 了 同样 长 的 时 间 完 成 整个 清洗 工作 ， 虽然 它们 都 认为 自己 是 第 一 个 接受 服务 。 汽 车 
3 多 花 了 一 些 时 间 ， 但 是 还 是 比 等 待 汽 车 1 和 汽车 2 都 做 完 真空 吸 尘 再 做 洗车 少 花 时 间 。 汽 车 清洗 系统 只 
花 了 4 个 时 间 步 清洗 三 辆 汽车 。 如 果 按 照 真空 吸 尘 - 洗车 -- 擦 干 依次 清洗 这 三 辆 汽车 ， 则 需要 5 个 时 
间 步 。 
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b) 并 行 洗车 


1-7 加 速 洗 汽 车 
WÈ: 在 图 a) 中 , 汽车 以 相同 的 顺序 穿 过 过 程 的 每 一 步 。 第 三 辆 汽车 必须 等 到 前 两 辆 汽车 都 被 清洗 之 后 才能 清 
洗 。 在 b) 图 中 ， 第 三 辆 汽车 在 第 二 辆 汽车 在 清洗 的 同时 被 清洁 。 第 三 辆 车 只 需要 在 洗车 之 前 等 第 二 辆 车 清 
洁 完成 。 


相同 的 理念 也 可 应 用 于 进程 上 。 下 面 是 一 些 进程 执行 的 特征 ， 我 们 可 以 对 它 进 行 研究 以 便 使 用 并 行 技 
术 加 速 系统 运行 : $ 

m 在 现代 的 计算 机 系统 中 ,输入 /输出 操作 比 处 理 器 操作 要 花费 更 多 的 时 间 。 

加 进程 P 在 做 输入 /输出 时 并 不 需要 处 理 器 (如 用 户 输入 信息 、 调 试 程序 等 )。 

n 每 个 进程 花费 在 输入 /输出 设备 上 的 时 间 最 多 ( 见 图 1-8a)。 

时 在 一 个 传统 的 计算 机 系统 中 ， 有 多 个 设备 ,但 只 有 一 个 处 理 器 。 

假定 操作 系统 控制 处 理 器 的 使 用 ， 使 得 P 进程 进行 1/O 操作 时 ， 其 他 的 进程 P 使 用 处 理 器 ( 见 图 
1-8b) ,这 样 我 们 就 可 以 让 进程 同时 使 用 计算 机 不 同 的 部 件 来 实现 真正 的 并 行 执行 。 

在 没有 多 道 程序 设计 的 系统 中 ，N 个 进程 的 执行 时 间 分 别 为 t1，zt;，…，ztw， 则 N 个 进程 总 的 执行 
时 间 为 1 + tp +++ tyo 

我 们 知道 任何 进程 P:， 其 最 小 执行 时 间 为 t;。 因 为 进程 要 进行 输入 /输出 操作 和 计算 操作 ， 如 果 我 们 
能 对 进程 进行 调度 ， 使 得 每 一 个 进程 能 同时 使 用 不 同 的 计算 机 资源 ， 那 么 执行 N 个 进程 的 系统 时 间 就 等 
于 执行 具有 最 长 时 间 段 的 进程 的 时 间 。 也 就 是 : 


so 
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图 1-8 多 道 程序 设计 的 性 能 
注 : 在 图 a) 中 ， 进 程 P; 仅 使 用 处 理 器 的 三 个 短 的 时 间 片 ， 中 间 插 入 了 输入 /输出 操作 。 当 我 们 在 图 b) 中 考虑 
N 个 进程 的 处 理 器 和 I/O 活动 时 ， 我 们 可 以 协调 它们 的 执行 ， 使 得 一 个 进程 在 使 用 处 理 器 时 ， 其 他 的 进程 
HEFT 1/0 操作 。 


maximum (11，t2，…， tn) 


如 果 条 件 满足 的 话 ， 我 们 可 以 达到 最 大 的 速度 增益 。 然 而 ， 我 们 知道 ， 在 多 道 程序 设计 系统 中 ，N 个 
进程 的 执行 时 间 工 满足 : 
maximum (t1, ta, ty tn) <T 


通常 ， 我 们 也 有 : 


Tt, + tot + ty 


有 很 多 事情 会 导致 不 能 达到 最 大 的 并 发 度 。 例 如 ， 进 程 必须 要 在 使 用 处 理 器 和 1/O 设备 上 有 合适 的 平 
衡 点 。 操 作 系统 也 要 花费 时 间 进 行 调度 。 系 统 中 必须 要 有 N - 1 个 设备 ， 进 程 必须 使 用 所 有 的 N 一 1 个 设 
备 等 。 这 就 是 我 们 把 进程 增益 表达 为 一 个 不 等 式 的 原因 。 我 们 在 本 书 中 将 一 直 研 究 这 个 问题 。 


1.1.5 显 式 资源 共享 


显 式 资源 共享 机 制 使 得 进程 可 以 通过 它们 自己 的 协调 策略 来 使 用 普通 资源 与 操作 系统 的 协调 策略 相 
反 )。 例如， 两 个 进程 可 以 协作 计算 每 月 的 薪水 ， 它 们 都 要 对 存储 雇员 工作 时 间 的 文件 进行 操作 。 显 式 资 
源 共 享有 两 个 重要 的 方面 ， 并 不 依赖 它 是 时 分 还 是 空 分 复 用 : 

加 系统 必须 根据 某 种 分 配 策略 隔离 资源 访问 。 

四 系统 必须 在 有 资源 请 求 时 ， 能 允许 进程 相互 合作 共享 资源 。 

资源 隔离 (resource isolation) 是 操作 系统 的 责任 ， 当 资源 分 配给 一 个 虚拟 机 使 用 时 ， 操 作 系统 要 阻止 
其 他 虚拟 机 的 未 授权 访问 。 例 如 ， 存 储 器 隔离 机 制 允 许 两 个 进程 同时 加 载 到 存储 器 的 两 个 不 同 的 部 分 ， 但 
任何 虚拟 机 都 不 能 访问 其 他 虚拟 机 使 用 的 内 存 块 ;处 理 器 隔离 机 制 强制 虚拟 机 顺序 地 共享 处 理 器 。 任 何 一 
个 进程 都 不 能 改变 或 访问 另 一 个 进程 正在 使 用 的 内 存 内 容 。 

为 了 大 多 数 虚拟 机 的 正确 操作 ， 资 源 隔离 是 必须 的 。 但 操作 系统 也 必须 在 有 多 个 请 求 时 ， 明 确 地 使 两 
个 或 多 个 执行 的 虚拟 机 能 共享 资源 访问 (s e resource access)。 授 权 的 共享 是 必要 的 ,例如 ， 一 个 进程 想 
共享 另 一 个 进程 计算 出 来 的 结果 ; 两 个 进程 需要 共享 同一 内 存 块 。 

操作 系统 为 资源 访问 提供 了 隔离 机 制 ， 但 也 引进 了 新 的 问题 。 假 定 程序 员 想 要 为 两 个 执行 进程 共享 文 
件 资源 的 访问 。 尽 管 操 作 系统 提供 了 隔离 机 制 ， 但 必须 还 要 提供 合法 共享 的 机 制 。 这 也 可 能 是 一 个 阴谋 ， 
因为 可 能 有 恶意 的 进程 试图 访问 已 分 配给 另 一 个 进程 的 资源 。 如 果 恶 意 进程 试图 访问 不 属于 自己 地 址 空间 
的 内 存 区 域 ， 那 它 可 能 破坏 另 一 进程 存储 的 信息 。 

资源 隔离 的 要 求 暗含 了 系统 软件 和 操作 系统 的 另 一 重要 的 属性 。 如 果 一 个 进程 需要 资源 隔离 ， 那 系统 
软件 必须 要 提供 这 种 功能 。 以 前 的 软件 开发 经 验 告诉 我 们 软件 并 不 总 是 按照 你 的 意图 去 工作 。 想 像 一 下 : 
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负责 资源 隔离 的 系统 软件 并 没有 按照 期 待 的 方式 去 执行 ， 那 会 发 生 什 么 问题 ? 资源 隔离 可 能 会 失败 。 在 现 
实 世 界 中 ， 这 可 能 就 像 需要 政策 来 确保 法 律 的 执行 一 样 。 如 果 政 策 不 能 强制 法 律 的 实施 ， 则 法 律 就 没什么 
用 处 。 系 统 软件 被 期 待 去 实施 资源 隔离 策略 。 但 如 果 它 由 于 程序 漏洞 或 不 适当 的 算法 而 失败 ， 那 它 就 没 什 
么 用 处 。 当 代 操 作 系统 (有 别 于 一 般 的 系统 软件 ) 被 构建 成 可 信 软 件 ， 意 味 着 它们 能 按照 策略 执行 使 得 整 
个 系统 正确 地 运行 。 资 源 隔 离 软件 已 成 为 操作 系统 中 非常 关键 的 一 部 分 。 

现在 对 所 学 的 共享 资源 内 容 进行 一 下 概括 ， 图 1-9 显示 了 操作 系统 是 如 何 管 理 计 算 机 的 物理 硬件 资源 
的 〈 使 用 软件 - 硬件 接口 ) 。 操 作 系 统 负责 硬件 资源 的 正确 共享 和 隔离 。 可 以 使 用 操作 系统 接口 (也 称 系 
统 调用 接口 ) 来 操纵 操作 系统 抽象 。 其 他 的 系统 软件 也 可 以 实现 自己 的 抽象 资源 和 共享 机 制 (如 数据 库 和 
窗口 系统 )。 这 些 系统 软件 并 不 作为 可 靠 软件 实现 ， 它 的 正确 性 依赖 于 操作 系统 的 可 靠 操作 。 所 有 的 系统 
软件 抽象 通过 API 访问 。 应 用 程序 使 用 系统 软件 的 API 来 导出 人 机 界面 ， 这 也 就 是 由 终端 用 户 使 用 的 东 
西 。 一 般 来 说 ， 程 序 员 把 任何 软件 接口 都 称 为 API， 但 系统 调用 接口 是 指 操作 系统 接口 。 微 软 将 它 的 Win- 
dows 系统 调用 接口 称 为 Win32 API。 








软件 一 硬件 接口 








图 1-9 应 用 软件 、 系 统 软件 和 操作 系统 
TE: 在 应 用 软件 、 系 统 软件 和 操作 系统 间 有 一 个 层次 结构 。 操 作 系 统 使 用 软件 -硬件 接口 提供 的 功能 来 实现 操 
作 系 统 接口 。 系 统 软件 使 用 操作 系统 接口 来 导出 API。 应 用 程序 使 用 API 来 实现 人 机 交互 界面 。 


1.2 操作 系统 策略 


在 操作 系统 发 展 的 各 个 历史 期 间 ， 使 用 了 几 种 不 同 的 策略 来 提供 操作 系统 服务 。 策 略 是 指 程序 员 看 到 
的 虚拟 机 的 一 般 特 征 。 例 如 ， 也 许 在 系统 中 有 固定 数目 的 虚拟 机 ， 也 可 以 设计 虚拟 机 来 为 终端 用 户 进 行 与 
软件 的 交互 。 

特定 计算 机 的 策略 依赖 于 商业 和 工业 标准 ， 如 计算 机 怎样 被 使 用 的 ? 人 机 交互 更 重要 还 是 完成 数据 处 
理 更 重要 ? 同时 有 多 个 用 户 使 用 计算 机 吗 ? 实现 一 种 策略 而 不 影响 整个 机 器 的 性 能 可 能 吗 ?自从 第 一 个 操 
作 系统 出 现 以 来 ， 有 几 种 通用 策略 。 它 们 都 使 用 虚拟 机 的 概念 来 表示 资源 抽象 和 资源 共享 。 我 们 来 考虑 一 
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下 几 个 重要 的 操作 系统 策略 。 

最 早 的 计算 机 在 一 个 时 间 内 专门 用 于 一 个 程序 的 执行 (没有 多 道 程序 ， 特 别 是 没有 操作 系统 )。 应 用 
就 是 整个 系统 的 开销 。 因 为 计算 机 价格 十 分 昂贵 ， 它 们 仅 被 使 用 在 国防 应 用 等 关键 性 领域 中 。 为 了 开发 和 
调试 它 运行 的 程序 ， 程 序 员 对 整个 机 器 独占 访问 。 当 程序 调试 完成 后 ， 机 器 分 配给 终端 用 户 去 执行 程序 。 
由 于 只 有 一 个 程序 执行 ， 没 有 资源 共享 。 系 统 软件 的 唯一 目的 就 是 通过 抽象 来 简化 设备 编程 。 

到 1960 年 ， 由 于 经 济 上 的 压力 和 软件 技术 的 发 展 ， 用 户 希 望 在 一 台 计 算 机 上 能 并 发 执行 多 个 程序 。 
需要 一 种 新 的 操作 系统 策略 来 实现 资源 共享 。 这 导致 了 虚拟 机 和 多 道 程序 设计 的 策略 的 出 现 。 本 章 的 剩余 
部 分 描述 了 6 种 不 同 的 操作 系统 及 支持 相应 策略 操作 系统 的 计算 机 。 

m tH AB (batch systems)。 它 服务 于 一 系列 作业 ， 称 之 为 批 (batch)， 将 批 中 的 作业 顺序 读 人 机 

器 ， 并 执行 每 个 作业 中 的 程序 。 一 个 作业 (job) 是 将 命令 、 程 序 和 数据 按 预先 确定 的 次 序 结合 在 一 
起 ， 并 提交 给 系统 的 一 个 组 织 单位 。 作 业 能 自动 完成 任务 而 不 用 人 来 干预 ， 它 包含 了 需要 执行 的 所 
有 程序 和 数据 。 因 为 这 个 原因 ， 批 处 理 也 称 为 非 交互 式 系 统 。 批 处 理 系 统 是 第 一 个 使 用 多 道 程 序 设 
计 的 系统 。 这 使 得 操作 系统 可 以 并 发 地 执行 作业 。 

m 分 时 系统 (timesharing systems) 可 支持 多 个 交互 用 户 。 不 要 求 用 户 在 执行 前 先 准 备 并 组 织 好 作业 ， 
而 是 用 户 与 计算 机 建立 一 个 交互 会 话 ， 在 会 话 的 过 程 中 ， 用 户 根 据 需 要 来 提供 命令 、 程 序 和 数据 。 
分 时 系统 推动 了 多 道 程序 设计 的 发 展 ， 尤 其 是 在 支持 一 个 交互 式 用 户 控 制 下 的 多 道 程序 执行 方面 。 
它 要 求 操作 系统 要 能 及 时 响应 用 户 ， 并 使 资源 管理 和 保护 机 制 的 问题 变 得 突出 。 

m 个 人 计算 机 和 工作 站 (personal computers and workstations)。 它 建立 起 了 一 个 与 多 用 户 共享 一 台 计 算 
机 所 不 同 的 应 用 环境 ， 一 台 计 算 机 只 被 单个 用 户 使 用 。 在 分 时 系统 中 ， 交 互 响 应 时 间 依 赖 于 共享 机 
器 的 用 户 的 数目 。 而 在 个 人 计算 机 和 工作 站 中 ， 程 序 执行 时 间 是 可 预测 的 ， 因 为 所 有 的 进程 属于 单 
个 用 户 。 这 种 方式 表现 了 操作 系统 策略 的 本 质变 化 ， 因 为 它 基 于 如 下 理念 : 使 用 户 等 待 时 间 更 少 比 
最 大 化 硬件 的 利用 率 更 为 重要 。 尽 管 如 此 ， 单 用 户 机 器 常常 也 是 多 道 程序 的 ， 它 可 以 并 发 地 执行 几 
个 不 同 的 任务 (通过 使 用 几 个 不 同 的 进程 )。 

E XARRA (embedded systems) 最 初 用 来 控制 自治 系统 如 水 坝 、 卫 星 、 机 器 人 等 。 在 这 些 应 用 背景 
中 ， 常 常 要 求 操 作 系统 为 特定 的 计算 任务 保证 响应 时 间 。 如 果 这 些 系统 不 能 在 规定 期 限 内 完成 任 
务 ， 则 任务 就 认为 是 失败 了 。 目 前 ， 由 于 多 媒体 计算 的 出 现 〈( 比 传统 的 实时 系统 具有 更 灵活 的 时 间 
策略 ) ， 实 时 技术 发 展 很 快 。 

m 小 型 通信 计算 机 (small，communicating computers) (包括 移动 、 无 线 计 算 机 ) 是 最 新 的 机 器 种 类 的 

代表 。 这 些 种 类 的 系统 包括 因特网 设施 、 平 板 电脑 、 机 顶 盒 、 蜂 窝 电话 、 个 人 数字 助理 (PDA). 
这 些 机 器 是 小 的 、 可 移动 的 通信 计算 机 ， 但 是 它们 也 支持 与 个 人 计算 机 或 笔记 本 相同 的 应 用 。 这 也 
推动 了 新 类 型 操作 系统 发 展 ， 具 有 新 的 资源 管理 策略 、 电 源 管理 策略 、 有 限 的 设备 存储 等 。 

E 网 络 技 术 (network technology) 自从 1980 年 以 来 得 以 迅速 发 展 。 现 代 计 算 机 格局 是 通过 高 速 网 络 

( 含 公共 因特网 ) 将 个 人 计算 机 群 、 工 作 站 、 批 处 理 系 统 、 分 时 系统 、 有 时 其 至 是 实时 系统 等 计算 
机 相互 连接 而 成 为 一 个 大 的 网 络 。 由 于 网 络 上 资源 和 信息 的 共享 需求 ， 使 操作 系统 的 策略 又 发 生 了 
很 大 的 变化 。 


1.2.1 批 处 理 系统 


一 个 批 处 理 系 统 依次 服务 队列 中 的 各 个 作业 。 一 个 批 处 理 作业 的 执行 由 预定 义 的 命令 (如 拷贝 文件 或 
打印 文件 命令 ) 集合 所 说 明 ， 岂 做 作业 控制 说 明 。 一 旦 操作 系统 开始 执行 一 个 作业 ， 它 会 按 顺 序 执行 列表 
中 的 所 有 命令 。 当 它们 执行 时 无 需 用 户 与 程序 进行 交互 。 

在 20 世纪 60 年 代 ， 批 作业 以 一 组 穿孔 卡 的 形式 输入 到 机 器 中 。 今 天 ， 批 处 理 的 执行 说 明 ， 是 通过 用 
文件 的 形式 CHE UNIX PERIERE, Windows 中 使 用 autoexec. bat 文件 ) 来 表示 一 个 作业 的 执行 轨迹 
的 。 操 作 系统 读 人 整个 作业 的 描述 ， 然 后 为 执行 做 准备 。 当 一 个 作业 需求 的 资源 是 可 用 时 ， 操 作 系 统 就 执 
行 该 作业 。 在 作业 完成 后 ， 结 果 被 打印 并 返回 给 客户 。 


1.2.2 用 户 的 观点 
从 用 户 的 角度 来 看 ， 作 业 控 制 说 明 提供 了 操作 系统 运行 作业 中 程序 的 所 有 信息 。 例 如 ， 如 果 一 个 作业 
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准备 生成 一 个 公司 的 发 货 月 表 ， 操 作 系 统 可 能 需要 执行 几 个 不 同 的 程序 生成 发 货 月 表 。 一 个 进程 来 计算 部 
门 的 销售 信息 ， 另 一 个 进程 来 确定 发 票 上 的 数量 ， 第 三 个 进程 来 更 P 
新 公司 的 付款 帐户 信息 ， 等 等 。 这 些 程序 对 文件 中 信息 的 操作 比较 
多 ,无 需 交 互 式 地 从 用 户 获取 信息 。 所 以 作为 人 机 交互 作业 运行 就 
没有 必要 了 。 每 个 用 户 准备 一 个 作业 ， 然 后 作业 被 集合 成 批 并 提交 
给 计算 机 ( 见 图 1-10)。 在 计算 机 执行 完 批 处 理 后 ， 它 产生 一 批 输 
出 列表 。 用 户 得 到 输出 列表 并 知道 作业 运行 的 结果 。 

现代 操作 系统 不 使 用 纯粹 的 批 处 理 系 统 策略 ， 像 把 作业 通过 输 
人 设备 拷贝 到 系统 中 排队 等 待 处 理 。 然 而 ， 非 交互 式 的 作业 仍然 是 
非常 有 用 的 ， 现 在 比较 常见 的 做 法 是 : 从 用 户 的 观点 看 ， 批 处 理 作 
业 提供 一 个 控制 文件 ， 在 文件 中 ， 用 户 定义 了 一 个 复杂 的 操作 系统 
命令 的 集合 。 利 用 系统 的 批 处 理 功能 ， 就 可 以 执行 控制 文件 中 的 命 
令 。 由 于 很 多 应 用 程序 在 执行 过 程 中 不 需要 人 机 交互 ， 所 以 很 适合 
于 批 处 理 。 例 如 ， 每 月 发 货 票 仍然 是 利用 这 种 方式 进行 准备 的 。 其 输入 池 





他 的 像 打 印 薪水 发 票 、 更 新 电话 德 、 搜 集 和 分 析 地 震 数据 都 是 批 处 图 1.10 批 处 理 系统 
理应 用 。 注 : 批 处 理 系 统一 次 处 理 一 批 作 
业 。 一 个 输入 部 件 将 作业 分 

ee 批 处 理 技术 组 成 批 ， 然 后 将 它 送 到 计算 

在 批 处 理 系统 中 ， 假 脱 机 (spooling) 输入 组 件 将 每 个 作业 读 机 。 当 计算 机 完成 作业 处 理 
和 人， 并 将 它 保存 在 当前 的 作业 队列 中 〈 见 图 1-10)。 早 期 系统 使 用 fa, 它 将 每 个 作业 的 结果 写 
一 组 穿孔 卡片 作为 输入 。 后 来 作业 被 存储 在 磁带 设备 上 ， 再 将 磁带 到 输出 池 中 。 输 出 池 被 打印 ， 
挂 到 主机 上 。 主 机 将 作业 从 磁带 中 读 出 ， 执 行 作业 ， 并 将 结果 写 到 最 后 作业 结果 返回 给 终端 用 
输出 池 中 。 作 业 在 主机 上 执行 完成 后 ， 计 算 机 会 将 结果 写 回 磁带 。 户 。 
随 着 系统 的 速度 越 来 越 快 ， 假 脱 机 输入 和 输出 操作 可 以 被 主机 上 的 1/O 子 系统 执行 。 批 处 理 作业 可 以 被 存 
储 在 磁盘 上 而 不 再 是 在 磁带 上 。 


操作 系统 使 用 调度 策略 来 决定 作业 执行 的 次 序 。 一 旦 操作 系统 从 批 处 理 队列 中 选择 一 个 作业 ， 它 就 为 
作业 分 配 一 块 内 存 (也 称 中 级 调度 (medium-term scheduling))。 一 旦 一 个 作业 被 加 载 到 内 存 ， 它 就 可 以 竞 
争 处 理 器 了 。 当 处 理 器 可 用 时 ， 处 理 器 调度 程序 (也 称 为 低级 调度 (short-term scheduler)) 就 从 当前 加 载 
到 内 存 的 作业 中 选择 一 个 ， 并 分 配 处 理 器 执行 。 

作业 只 能 在 它 加 载 到 内 存 后 才能 使 用 处 理 器 。 当 作业 执行 完成 后 ， 其 内 存 被 释放 ， 并 将 作业 结果 拷贝 
到 输出 池 ， 以 用 于 随后 的 打印 。 在 某 些 情 形 下 ， 操 作 系统 可 能 收回 已 分 配给 作业 的 内 存 , 这 种 系统 称 之 为 
交换 系统 (swapping system) (交换 也 被 用 在 分 时 系统 中 )。 存 储 分 配 策略 可 能 释放 一 个 作业 占用 的 内 存 ， 
并 将 它 移 回 到 磁盘 上 去 ， 它 可 能 是 一 个 特 耗 处 理 器 或 者 是 不 耗 处 理 器 的 用 户 。 一 个 特 耗 处 理 器 的 用 户 可 能 
被 惩罚 性 地 交换 出 去 ， 以 使 其 他 程序 有 更 多 机 会 使 用 处 理 器 周期 。 一 个 不 耗 处 理 器 的 用 户 被 交换 出 去 是 合 
理 的 ， 由 于 它 很 少 使 用 处 理 器 ， 因 此 当 它 空闲 时 就 不 应 该 占用 内 存 资 源 。 

在 批 处 理 系统 策略 占 主导 地 位 时 ， 计 算 机 主要 用 来 管理 大 容量 信息 。 业 务 数据 处 理 成 了 一 个 很 重要 的 
计算 机 领域 ， 特 别 鼓励 了 文件 技术 的 发 展 。 对 批 处 理 系统 来 说 ， 文 件 是 一 个 磁盘 存储 设备 的 抽象 ， 因 为 它 
们 提供 了 大 量 相似 信息 的 集合 (如 时 间 记录 卡 、 个 人 记录 、 轨 道 数据 记录 )。 通 过 创建 和 重新 定义 文件 抽 
象 ， 程 序 员 不 用 知道 具体 磁盘 操作 的 细节 ， 就 可 以 对 文件 进行 操作 ( 见 1.1 节 的 例子 )。 

批 处 理 系统 在 向 允许 多 用 户 共享 机 器 的 大 道上 迈 了 一 大 步 。 然 而 ， 多 道 程序 批 处 理 系统 并 不 赞成 在 用 
户 和 计算 机 间 的 实时 交互 一 一 用 户 通 过 使 用 作业 控制 说 明 来 表示 其 目的 。 在 批 处 理 系统 之 前 ， 用 户 可 以 坐 
在 系统 控制 台 上 并 调试 程序 。 在 批 处 理 系统 中 却 不 让 用 户 来 对 作业 进行 控制 。 事 实 上 ， 批 处 理 系统 可 以 位 
于 一 些 地 理 上 不 同 的 位 置 。 一 个 程序 员 一 天 仅 有 两 次 机 会 将 作业 输入 到 批 处 理 流 中 ， 这 种 情况 是 经 党 出 现 
的 。 今 天 的 软件 开发 环境 截然 不 同 ， 你 可 以 在 几 秒 内 重新 编译 和 执行 一 个 程序 。 
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示例 : 批 处 理 文件 

现代 的 操作 系统 如 UNIX 和 Windows 都 支持 批 处 理 文件 的 处 理 。 即 使 是 一 个 交互 式 的 分 时 系统 ， 用 户 
也 可 以 写 一 个 包含 一 系列 命令 的 批 处 理 文件 ， 操 作 系 统 就 可 以 在 没有 用 户 干预 的 情况 下 执行 。 批 处 理 文件 
的 一 个 最 简单 的 例子 是 DOS 中 的 config. sys 和 autoexec.bat 文件。 它们 定义 了 一 系列 计算 机 启动 后 可 以 
执行 的 命令 。 

图 1-11 显示 了 UNIX 下 的 一 个 批 处 理 文 件 (外壳 脚本 )， 这 个 文件 可 以 被 外 壳 程 序 解 释 执行 ,文件 中 
的 每 一 行 被 解释 成 操作 系统 的 一 个 命令 并 执行 。 在 例子 中 ， 第 一 步 就 是 编译 menu.c 文件 ， 生 成 一 个 可 重 
定位 的 文件 menu.o。 命令 文 件 中 的 第 二 行将 driver.c 进行 编译 ， 和 menu.o 及 C 库 进行 链接 。 第 三 行 执行 
链接 生成 的 文件 driver， 它 需要 两 个 参数 ， 一 个 为 test _ data， 作 为 输入 文件 ， 另 一 个 为 test _ out, M 
作 输 出 文件 。 第 四 行将 test _ out 文件 输出 到 名 为 thePrinter 的 打印 机 上 。 第 五 行 生成 一 个 名 为 driver _ 
test. tar 的 压缩 文件 ， 它 包含 了 源 代 码 和 测试 输出 。 在 命令 文件 中 的 最 后 一 行 对 tar 文件 进行 加 密 并 将 结 
果 写 回 到 名 为 driver _ test. encode 的 文件 中 。 





cc -g -c menu.c 
cc -g -o driver driver.c menu.o 

driver < test_data > test_out 

lpr -PthePrinter test out 

tar cvf driver_test.tar menu.c driver.c test_data test_out 
uuencode driver_test.tar driver_test.tar >driver_test.encode 





图 1-11 UNIX 系统 中 的 一 个 外 过 脚本 批 处 理 文件 
E: UNIX 外 壳 脚 本 是 一 个 批 处 理 文件 ， 它 包含 了 一 系列 的 命令 (在 本 例 中 是 6 个 命令 )， 外 壳 不 用 在 人 的 干预 
下 即 可 将 其 读 出 并 解释 执行 。 





1.2.4 分 时 系统 


分 时 系统 在 20 世纪 70 年 代 开 始 流行 起 来 。 其 目标 是 使 得 多 个 用 户 通过 使 用 带 有 键盘 和 显示 器 的 终端 
设备 ， 能 同时 与 计算 机 系统 进行 交互 。 这 种 策略 使 得 计算 机 能 为 多 用 户 所 用 ， 用 户 可 能 涉及 不 同类 型 的 信 
息 处 理 任务 。 在 分 时 系统 之 前 ,计算 机 只 为 少数 的 计算 机 专家 所 用 。 

有 4 种 早期 的 系统 实质 上 框 定 了 分 时 操作 系统 策略 : 

BCTSS, 兼容 的 分 时 系统 。CTSS 是 20 世纪 60 FR PME M.I.T 开 发 的 系统 [Corbato，et al.， 
19621。 它 是 当时 支持 对 前 卫 多 道 程序 设计 调度 算法 (“前 卫 ” 是 比较 当时 已 存在 的 算法 而 言 的 ) A. 
现代 存储 管理 技术 进行 初始 研究 的 载体 。 ` 

@ Multics [Organick, 1972], Multics 迅速 取代 CTSS 继续 发 展 ， 它 的 设计 非常 注重 可 靠 性 方面 ， 在 它 
之 前 的 操作 系统 常常 不 太 可 靠 。Multics 是 一 个 重点 发 展 了 虚拟 内 存 、 内 存 保护 ， 以 及 安全 方面 技术 
的 操作 系统 。 

B Calo Ca 分 时 系统 大 约 是 和 CTSS 及 Multics 系统 同时 设计 和 实现 的 【Sturgis，1973]。Cal 系统 的 研 
究 工作 涉及 了 分 时 系统 的 一 般 技 术 ， 以 及 保护 和 安全 技术 。 

E UNIX。 美 国电 话 电 报 公司 贝尔 实验 室 的 UNIX 设计 者 曾 参 与 过 Multis 系统 的 研究 ， 但 他 们 希望 能 
够 研制 一 个 简化 的 操作 系统 去 管理 一 台 小 型 机 (minicomputer)， 因 而 ， 他 们 在 1970 年 研制 了 
UNIX. UNIX 奉行 “内 核 小 就 是 精致 ”的 设计 理念 。UNIX 验证 了 建立 一 个 小 操作 系统 内 核 的 思 
想 ， 其 功能 要 尽 可 能 地 少 ， 但 能 支持 大 量 的 操作 系统 服务 ， 这 些 服务 以 应 用 程序 的 方式 运行 。 在 
CTSS, Multics 和 Cal 消失 了 很 多 年 后 ，UNIX 仍然 是 一 个 主要 的 操作 系统 (这些 年 也 有 很 大 的 改 
进 )。 
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1.2.5 用 户 的 观点 


在 批 处 理 系统 中 ， 用 户 在 作业 提交 给 计算 机 前 ， 需 要 仔细 计划 该 作业 如 何 去 执 行 。 而 分 时 系统 所 遵循 
的 方法 是 让 用 户 与 计算 机 建立 一 个 会 话 ( 称 之 为 “登录 ” (logging ontoyinto))， 然 后 由 用 户 决定 输入 系统 
要 执行 的 命令 。 在 执行 过 程 中 ， 用 户 直接 与 计算 机 进行 交互 ， 提 供 程序 执行 所 需 的 数据 ， 并 可 以 直接 看 到 
程序 执行 输出 的 结果 。 这 鼓励 了 用 户 用 信息 进行 实验 ， 例 如 ， 通 过 进行 不 同 的 条 件 情况 下 的 试验 ， 来 处 理 
决策 问题 。 但 在 早期 的 非 交 互 式 系统 中 ， 要 对 这 种 信息 处 理 问题 进行 处 理 ， 计 算 机 性 能 会 得 不 到 充分 的 发 
H. 

图 1-5 中 的 多 道 程序 虚拟 机 的 描述 也 说 明了 分 
时 操作 系统 的 用 户 观点 。 分 时 系统 使 用 多 道 程序 设 wi? 结果 
计 ， 它 允许 用 户 与 执行 程序 进行 交互 ( 见 图 1.12)。 ve 
在 多 道 程序 设计 中 ， 每 一 个 虚拟 机 实际 上 是 由 操作 
系统 实现 的 硬件 模拟 ， 通 过 在 一 个 虚拟 的 系统 控制 ae 
台 上 向 虚拟 机 发 出 命令 ， 这 样 ， 每 个 用 户 就 可 以 与 6.5 > 
计算 机 进行 交互 了 ， 并 且 当 计算 结束 时 就 会 收 到 计 As id 
算 的 结果 。 

分 时 系统 着 重 在 于 实现 公平 的 处 理 器 共享 的 策 
略 ， 让 用 户 感到 好 像 自己 在 使 用 一 个 独立 控制 的 
“相对 慢 一 些 ” 的 计算 机 一 样 ， 而 实际 上 是 一 台 虚 
拟 机 。 只 要 分 时 系统 不 超载 ， 相 比较 而 言 ， 响 应 时 


结果 


—— 


命令 





间 是 很 短 的 ， 因 而 用 户 可 以 接受 这 种 “相对 慢 一 图 1-12 分 时 系统 

些 ” 的 计算 机 的 性 能 。 注 : 分 时 系统 是 多 道 程序 系统 ， 它 允许 终端 用 户 在 两 个 
; 操作 系统 命令 之 间 与 计算 机 进行 交互 。 分 时 系统 是 

1.2.6 分 时 技术 交互 式 的 计算 机 系统 。 


分 时 操作 系统 使 用 多 道 程序 设计 技术 支持 多 个 虚拟 机 。 在 处 理 器 调度 和 内 存 分 配 策略 方面 ， 分 时 系统 
与 批 处 理 系统 有 很 大 的 差别 。 批 处 理 系 统 试图 优化 单位 时 间 内 可 以 处 理 的 作业 数量 ;而 分 时 系统 着 重 于 公 
平 性 ， 试 图 为 每 个 虚拟 机 提供 公平 的 处 理 器 资源 和 内 存 资源 。 在 资源 分 配 策略 方面 ， 分 时 系统 与 批 处 理 系 
统 也 不 一 样 。 

随 着 分 时 应 用 环境 的 发 展 ， 由 于 用 户 可 能 显 式 或 隐 含 地 同时 执行 两 个 不 同 的 程序 ， 因 此 要 求 设计 者 能 
区 分 作业 执行 和 程序 执行 的 概念 。 这 种 想法 直接 导致 人 们 将 “程序 的 执行 ”作为 进程 的 概念 提出 。 一 个 批 
处 理 作业 在 一 个 时 间 内 只 运行 一 个 用 户 的 程序 ， 而 对 分 时 作业 而 言 ， 可 能 在 任何 给 定 的 时 间 内 ， 运 行 两 个 
或 更 多 的 进程 。 例 如 ， 在 分 时 环境 中 ， 一 个 进程 正在 进行 文档 格式 的 转换 ， 同 时 另 一 个 进程 正在 读 邮件 。 
随 着 分 时 技术 的 发 展 ， 进 程 有 时 也 被 称 为 任务 (task) ， 因 而 支持 用 户 多 进程 的 分 时 多 道 程序 设计 系统 有 时 
也 称 之 为 多 任务 系统 (multitasking system). 

当 所 有 支持 多 道 程序 运行 的 机 器 都 支持 多 用 户 时 ， 分 时 系统 强调 在 用 户 及 其 进程 间 建立 防护 屏障 的 重 
要 性 。 这 主要 是 由 于 分 时 系统 允许 在 某 一 时 刻 存在 许多 进程 ， 而 批 处 理 系 统 在 某 一 时 刻 只 存在 个 别 进程 。 
如 果 没有 防护 屏障 ， 一 个 进程 可 能 无 意 间 破坏 了 另 一 个 进程 的 内 存 映 像 。 设 置 防护 屏障 确保 了 内 存 保护 ， 
但 也 使 两 个 作业 间 通 过 内 存 共享 信息 变 得 困难 了 ， 因 为 两 个 作业 必须 要 克服 防护 屏障 才能 实现 共享 。 防 护 
屏障 技术 也 扩展 到 了 用 户 共享 的 文件 系统 。 在 很 多 情形 下 ， 用 户 要 求 创 建 的 文件 不 能 被 其 他 用 户 修改 ， 甚 
至 不 让 其 他 用 户 阅 读 文件 内 容 。 保 护 和 安全 的 问题 ， 在 早期 的 分 时 系统 中 成 为 一 个 主要 的 问题 ， 尽 管 在 批 
处 理 系统 中 也 存在 。 f 


四 一 一 
示例 : UNIX 分 时 系统 

在 1974 年 ， 一 篇 研究 论文 将 UNIX 操作 系统 介绍 给 了 大 众 [Ritchie and Thompson, 1974], AT&T I 

尔 实验 室 的 两 位 研究 人 员 对 原 机 器 上 的 操作 系统 不 满意 ， 便 开发 了 UNIX 操作 系统 。UNIX 在 操作 系统 设 
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计 方 面 确立 了 两 个 新 趋势 ， 以 前 的 操作 系统 都 是 巨大 的 软件 包 一 一 是 计算 机 上 运行 的 最 大 软件 包 一 一 操作 
系统 由 计算 机 制造 商 提供 ， 是 为 特定 的 硬件 平台 而 设计 的 。 相 反 ，UNIX 是 一 种 小 的 、 简 洁 的 、 能 被 移植 
到 任何 小 型 计算 机 上 的 操作 系统 。UNIX 的 设计 理念 是 : 操作 系统 (也 称 内 核 ) 应 该 提供 一 个 最 基本 的 功 
能 ， 新 的 应 用 功能 (作为 用 户 程 序 ) 在 需要 时 能 随时 被 添加 。UNIX 的 理念 是 具有 革命 性 的 ， 到 1980 F, 
在 多 厂商 开发 的 硬件 平台 上 (大 学 、 研 究 机 构 和 系统 软件 开发 组 织 ) ， 它 成 了 程序 员 首 选 的 操作 系统 。 

尽管 不 用 重新 开发 整个 的 操作 系统 ，UNIX 内 核 就 能 移植 到 新 的 硬件 平台 上 ， 操 作 系统 的 广泛 使 用 还 
是 有 阻碍 。UNIX 源 代码 归 AT&T 贝尔 实 验 室 拥有 ， 当 然 可 以 通过 许可 证 的 方式 来 使 用 它 。 其 他 的 组 织 
可 以 通过 付费 给 AT&T 来 获得 许可 证 。 到 1980 年 ， 许 多 大 学 和 研究 机 构 获得 了 其 源 代 码 并 将 其 修改 来 满 
足 需 要 ， 做 的 最 出 色 的 是 加 利 福 尼 亚 大 学 Berkeley 分 校 的 DARPA (Defense Advanced Research Projects 
Agency) 研究 机 构 。 商 用 计算 机 供应 商 也 开始 利用 UNIX 源 代 码 来 开发 他 们 自己 的 UNIX 操作 系统 版 本 。 

到 1985 年 为 止 ， 有 两 个 主要 的 UNIX 分 支 版 本 〈 能 运行 在 许多 不 同 的 硬件 平台 上 ): 来 自 AT&T 忠 
尔 实验 室 的 System V UNIX 和 加 利 福 尼 亚 大 学 Berkeley 分 校 的 BSD UNIX. BSD UNIX 的 DEC VAX 版 本 被 
称 为 Version 4 BSD UNIX 或 者 是 4.x BSD UNIX。 两 个 分 支 都 实现 了 UNIX 所 公认 的 系统 调用 接口 。 然 
而 ， 这 两 个 分 支 操作 系统 的 内 核实 现 有 很 大 的 差别 。System V Al BSD UNIX 间 的 竞争 非常 活跃 ， 版 本 一 个 
接 一 个 地 变化 。 最 后 ，4.x BSD UNIX 的 商业 支持 者 (Sun Microcomputers 公司 ) 和 AT&T 签署 了 商业 合 
同 : 这 两 个 主要 的 操作 系统 版 本 被 合并 成 一 个 通用 的 UNIX 版 本 (Sun Solaris 操作 系统 )。 

同时 ， 其 他 的 计算 机 提供 商 也 努力 争取 UNIX 系统 调用 接口 的 可 选 实现 。 一 个 重要 的 事件 是 标准 化 组 
织 开发 的 UNIX 系统 调用 接口 一 一 POSIX.1。 (这 种 系统 调用 接口 简称 为 POSIX， 尽 管 这 可 能 产生 误导 ， 
因为 POSIX 组 织 也 开发 了 几 个 其 他 的 API 并且 其 中 只 有 一 个 表示 内 核 系 统 调用 接口 。 所 以 ， 这 本 书 我 们 
仅 考虑 POSIX.1， 我 们 一 般 用 更 流行 、 但 不 太 准 确 的 POSIX RER POSIX.1 系统 调用 接口 。) 一 旦 POSIX 
被 建立 ， 开 发 者 就 可 以 自由 地 设计 和 构建 它们 自己 的 内 核 ， 这 些 内 核 提 供 POSIX 描述 的 API 指定 的 功能 。 
例如 ， 在 Carnegie Mellon 大 学 ， 由 Richard Rashid 领导 的 操作 系统 研究 小 组 开发 了 具有 POSIX/UNIX 系统 
调用 接口 的 Mach 操作 系统 ( 见 19.4 节 )。 它 可 以 取代 4.x BSD 和 System V UNIX 内 核 。Mach 的 UNIX 操 
作 系 统 版 本 被 用 来 作为 开放 系统 基金 会 OSF-1 的 基础 ，OSF-1 又 是 苹果 公司 OS X 操作 系统 的 基础 。 这 种 
趋势 在 继续 发 展 ， 使 得 不 同 种 类 的 UNIX 开放 源 代码 不 断 出 现 (如 Linux 和 FresBSD)。 后 来 ， 软 件 开发 商 
开始 使 用 这 些 开放 源 代 码 ， 再 也 不 需要 使 用 UNIX 源 代 码 的 许可 证 了 。 

UNIX 命令 行 解释 器 Bourne shell 也 建立 了 用 户 与 操作 系统 交互 的 标准 。 在 Bourne Shell 中 开发 
和 实现 的 基本 理念 在 基于 文本 的 人 机 界面 中 是 很 常见 的 。 

UNIX 出 现在 CTSS, Multics 和 Cal 系统 后 ， 所 以 UNIX 从 它们 的 开发 设计 中 受益 很 多 。 它 支持 多 进 
程 并 支持 与 终端 用 户 的 交互 。UNIX 是 操作 系统 基本 概念 的 实验 地 ， 如 可 重 配置 的 设备 、 虚 拟 机 、 安 全 、 
虚 存 。 

到 20 世纪 80 年 代 中 期 ，UNIX 作为 分 时 操作 系统 占据 了 统治 地 位 。 它 也 是 工作 站 上 重要 的 操作 系统 。 
E. 











1.2.7 个 人 计算 机 和 工作 站 


在 1977 年 4 月 ，Apple AAT, 在 1981 年 8 月 IRM 推出 了 个 人 计算 机 。 接 下 来 十 年 里 ， 个 人 计算 
机 系统 软件 通常 没有 使 用 多 道 程序 设计 技术 一 一 用 户 在 某 一 时 间 只 能 执行 一 个 程序 。 因 为 没有 多 道 程序 设 
计 ， 所 以 没有 资源 隔离 和 资源 共享 的 需求 。 系 统 软件 最 主要 的 需求 就 是 提供 硬件 抽象 。Apple 提供 了 一 套 
函数 (后 来 成 了 工具 箱 ) ，IBM 个 人 计算 机 也 提供 了 设备 抽象 软件 (IBM 基本 输入 /输出 系统 BIOS)。 苹 果 
和 IBM 都 将 它们 的 设备 抽象 软件 存储 在 只 读 存储 器 (ROM) 中 ， 当 机 器 掉 电 的 时 候 这 些 信息 不 会 丢失 。 
ROM 是 一 个 只 读 存 储 设备 ， 可 以 将 信息 存储 其 中 ， 即 使 计算 机 关闭 电源 ， 这 些 信息 也 不 会 丢失 。 这 些 早 
期 的 个 人 计算 机 到 1990 年 都 消失 了 ， 尽 管 IBM BIOS 抽象 软件 的 思想 在 Intel 微 处 理 器 中 仍然 使 用 。 

1982 年 ，Sun 公司 发 布 了 它 的 第 一 台 小 型 计算 机 ， 其 他 的 制造 商 (如 HP、Apollo、Three Rivers) 也 在 
同一 时 候 发 布 了 工作 站 。 工 作 站 与 个 人 计算 机 (如 IBM 个 人 计算 机 和 Appel) 有 很 大 的 不 同 ， 工 作 站 拥 
有 足够 的 资源 ， 它 采用 了 分 时 操作 系统 的 技术 ， 特 别 是 多 道 程序 设计 技术 ， 几 乎 所 有 的 工作 站 都 采用 了 革 
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一 种 UNIX 操作 系统 。 

到 1990 年 ， 有 三 个 不 同 的 小 型 计算 机 阵营 : 苹果 个 人 计算 机 (1984 年 发 布 的 Macintosh), IBM 个 人 
计算 机 和 UNIX 工作 站 。 两 大 个 人 计算 机 阵营 之 间 的 竞争 是 激烈 的 ， 尽 管 此 时 工作 站 还 被 看 作 另 一 个 市 
场 。 到 1995 年 , 个 人 计算 机 硬件 已 变 得 非常 先进 并 可 以 开始 和 工作 站 进行 竞争 。 同 时 ， 微 软 也 推出 了 
Windows NT 和 Windows 95 操作 系统 。 新 的 竞争 是 IBM 兼容 机 (BM 已 经 将 其 注意 力 转向 开发 其 他 类 型 
的 计算 机 ) 和 工作 站 的 竞争 。 时 至 今日 ， 在 工作 站 和 个 人 计算 机 之 间 没 什么 本 质 区 别 了 。 本 书 描述 的 大 部 
分 概念 和 原理 都 存在 于 当代 个 人 计算 机 和 工作 站 的 操作 系统 中 。 


1.2.8 用 户 的 观点 


个 人 计算 机 和 工作 站 在 计算 时 给 用 户 完全 自由 的 控制 ,使 用 户 以 一 种 全 新 的 感觉 使 用 计算 机 ， 不 再 把 
计算 机 看 成 一 种 不 可 预知 的 共享 资源 ， 用 户 开始 把 它 作 为 一 种 完成 工作 任务 的 工具 来 使 用 它 ， 类 似 于 电 
话 、 打 字 机 或 者 复印 机 一 样 。 计 算 机 作为 一 种 提高 个 人 工作 效率 的 工具 获得 了 迅速 发 展 ， 例 如 出 现 了 文字 
处 理 系统 、 桌 面 印 刷 系 统 、 电 子 数 据 表 格 以 及 个 人 数据 库 等 ， 单 用 户 的 计算 机 也 开始 在 公司 内 广泛 应 
用 。 


1.2.9 操作 系统 技术 


单 用 户 计 算 机 的 普及 源 于 个 人 计算 机 (PC 机 ) 的 发 展 ， 它 们 可 以 直接 放 在 办 公 室 ， 而 无 需 一 个 特殊 
的 计算 机 机 房 。20 世纪 70 年 代 开 始 出 现 的 小 型 机 便 是 这 种 技术 的 典范 。 第 一 批 小 型 机 包括 DEC PDP8 和 
Data General 公司 的 Nova， 它 们 相对 便宜 且 易 于 安装 (与 当时 的 传统 计算 机 需要 空调 和 专门 的 电源 相 比 )。 
小 型 机 在 20 世纪 80 年 代 非 常 流行 ， 因 为 它们 既 可 作为 个 人 计算 机 ， 也 可 作为 分 时 共享 的 机 器 。DEC 公司 
的 PDP-11 小 型 机 是 非常 受 欢 迎 的 硬件 平台 ， 可 作为 软件 开发 的 个 人 机 或 作为 分 时 共享 的 机 器 。 最 后 ， 
PDP-11 发 展 成 了 非常 流行 DEC VAX 分 时 计算 机 [Levy and Eckhouse，1989]， 它 可 能 是 20 世纪 80 年 代 使 
用 最 广泛 的 分 时 计算 机 。 

伴随 着 小 型 机 的 发 展 ， 一 种 新 的 、 更 小 型 的 机 器 一 一 微机 (microcomputer) 出 现 了 。 微 机 的 基本 部 件 
就 是 一 个 在 一 块 集成 电路 板 上 实现 的 处 理 器 。 早 期 的 微机 基于 8 位 处 理 器 芯片 ， 时 钟 频率 在 1 MHz 左右 。 
与 之 相 比 ， 现 代 微 机 使 用 32 位 (甚至 64 位 ) 微 处 理 器 ， 典 型 的 时 钟 频率 超过 2500 MHz (2.5GHz)。 个 人 
计算 机 和 工作 站 都 使 用 微机 作为 它们 的 处 理 器 。 

第 一 代 个 人 计算 机 系统 中 ， 结 合 了 最 基本 的 操作 系统 功能 ， 代 码 通常 写 人 ROM (如 IBM BIOS)。 基 
于 ROM 的 操作 系统 提供 了 一 些 控制 计算 机 设备 的 功能 。 之 后 ， 通 过 增加 操作 系统 软件 ， 基 于 ROM 的 系 
统 功能 得 以 加 强 ， 可 用 于 管理 文件 并 将 文件 从 磁盘 加 载 到 可 读 写 的 随机 存储 器 (RAM) 中 。 早 期 最 流行 
的 个 人 计算 机 操作 系统 是 CPAM， 它 最 终 被 微软 MS-DOS (或 IBM 版 本 的 PC-DOS) 所 取代 。 这 些 操 作 系 
统 通 过 提供 文件 系统 进一步 扩展 了 设备 抽象 软件 。 
, 在 商业 市 场 上 ， 装 有 MSDOS 的 个 人 计算 机 比 装 有 其 他 操作 系统 的 产品 占有 优势 。 现 在 ， 很 多 原来 使 
用 DOS 的 计算 机 继续 使 用 微软 的 后 继 操作 系统 ， 如 Windows 95/98/Me 和 Windows NT/2000/XP. MS- 
DOS 对 操作 系统 技术 的 最 大 贡献 在 于 : 它 使 计算 普及 化 ， 并 且 在 机 器 启动 时 ， 它 可 以 灵活 地 配置 操作 系统 
的 部 件 。 

起 初 工作 站 的 硬件 配置 比 个 人 计算 机 更 为 灵活 、 运 行 速度 更 快 。 工 作 站 使 用 的 硬件 与 当时 的 小 型 机 十 
分 相似 。 .工作 站 通常 包含 比 个 人 计算 机 更 多 的 资源 ， 如 更 多 的 内 存 ， 更 快 、 功 能 更 强 的 处 理 器 ， 大 容量 磁 
盘 ， 以 及 高 速 的 图 形 适 配器 。 这 些 工作 站 通常 要 求 更 为 复杂 的 操作 系统 来 管理 资源 。 

虽然 UNIX 是 作为 分 时 系统 而 设计 的 ， 它 支持 多 道 程序 设计 及 功能 可 以 扩展 的 特点 使 得 UNIX 很 自然 
地 应 用 于 工作 站 环境 中 ， 尤 其 是 当 工 作 站 被 用 于 软件 开发 时 。 随 着 工作 站 (及 小 型 机 ) 市 场 的 扩大 ， 
UNIX 也 获得 了 发 展 。 例 如 ， 根 据 市 场 的 对 图 形 处 理 的 需求 ，UNIX 中 加 入 了 支持 高 分 辨 率 图 形 处 理 的 方 
法 。 类 似 地 ， 当 网 络 技术 对 工作 站 应 用 变 得 重要 时 ，UNIX 开始 接纳 网 络 协议 。 既 然 现 在 对 个 人 计算 机 和 
工作 站 的 硬件 不 再 进行 区 分 , 个 人 计算 机 操作 系统 和 UNIX 都 可 以 作为 这 些 机 器 的 操作 系统 。 





17 


40 
Sut. 





1.2.10 对 现代 操作 系统 技术 的 贡献 


个 人 计算 机 和 工作 站 的 广泛 应 用 ， 极 大 地 刺激 了 支持 个 人 计算 应 用 的 系统 软件 的 增长 。 这 个 需求 反 过 
来 又 引起 了 操作 系统 开发 者 和 人 机 界面 开发 者 的 兴趣 和 注意 ， 如 生成 有 效 的 点 击 选择 界面 。SUN 公司 的 
OpenWindows/NeWS 窗口 系统 和 X/Motif 窗口 系统 ， 都 深 深 根植 于 系统 软件 技术 (或 实现 )。 对 这 类 机 器 
的 兴趣 也 推进 了 支持 多 个 会 话 和 虚拟 终端 新 操作 系统 的 发 展 。 





HP: 微软 Windows 操作 系统 家 族 

微软 的 第 一 个 操作 系统 是 MS-DOS。 它 的 主要 目的 是 提供 设备 抽象 ， 并 没有 提供 多 道 程 序 设计 环境 。 
现在 内 置 Intel 处 理 器 的 计算 机 上 的 BIOS 仍然 反映 了 MS-DOS 设备 抽象 的 理念 。20 世纪 90 年 代 中 期 前 ， 
MS-DOS 一 直 是 个 人 计算 机 的 主流 操作 系统 ， 但 是 现在 它 逐 渐 被 新 的 操作 系统 所 蔡 代 ， 当 然 新 系统 常常 还 
是 微软 的 操作 系统 。 

当代 的 微软 操作 系统 ， 也 称 为 Windows 操作 系统 家 族 ， 提 供 了 一 组 应 用 程序 调用 接口 ， 称 Win32 API 
( 见 图 1-13)。 这 些 API 函数 数 忆 非常 多 ， 而 且 是 动态 增长 的 。 在 2000 年 ，Win32 API 包括 了 2000 个 不 同 
的 函数 ， 有 创建 进程 的 函数 ， 也 有 性 能 查询 函数 。Windows 操作 系统 家 族 的 系列 产品 实现 的 Win32 API 数 
目 也 不 一 样 。 以 所 有 的 API 函数 数目 为 基准 ， 假 定 全 集 为 1， 则 Windows NT/2000/XP 实现 的 API 数目 为 
1, Windows 95/08/Me 实现 的 API 函数 为 34， 而 Windows CE (也 称 Pocket PC) 实现 的 API 函数 为 1/4。 









Win32 API | Win32AP1 了 了 集 | 


7 
Windows CE 
(Pocket PC) 
Windows 95/98/Me 


Windows NT/2000/XP 


图 1-13 微软 操作 系统 家 族 
TE: 微软 的 操作 系统 家 族 有 三 个 不 同 的 成 员 ，Windows CE 系统 最 小 ， 提 供 的 API 函数 最 少 。Windows 95/98/ 
Me 是 一 个 较 大 的 系统 ， 提 供 了 总 API 数目 的 3/4。Windows NT/2000 /XP 是 最 大 的 家 族 成 员 ， 实 现 了 所 有 
的 API 函数 。 


Win32 API | umazani | was [wm |] 






操作 系统 家 族 系列 的 各 个 版 本 都 兼容 老 的 版 本 ， 提 供 老 版 本 相同 的 API 函数 ， 它 是 为 了 使 得 应 用 程序 
更 易 移植 。 如 果 微 软 高 版 本 的 操作 系统 实现 了 低 版 本 提供 的 所 有 API 函数 ， 应 用 程序 员 不 用 对 应 用 软件 做 
任何 修改 ， 就 可 以 在 新 版 本 的 操作 系统 上 运行 。 让 不 同 的 操作 系统 家 族 产品 提供 的 API 集合 形成 包含 关 
系 ， 操 作 系统 就 实现 了 向 上 兼容 性 。 例 如 ,在 Windows CE 上 写 的 任何 程序 不 用 做 任何 修改 就 可 以 在 Win- 
dows Me 和 Windows XP 上 运行 。 同 样 ， 在 Windows Me 上 写 的 程序 不 用 做 任何 修改 就 可 以 在 Windows XP 
上 运行 。 另 外 ， 操 作 系 统 虽 然 改 进 了 ， 但 对 相同 的 接口 都 提供 相同 的 功能 (假定 提供 更 好 的 质量 )。 采 用 
这 种 策略 对 建立 和 维护 操作 系统 的 API 的 一 致 定义 来 说 是 必要 的 。Windows 98/Me 和 Windows NT/2000/ 
XP 上 的 相同 API 函数 的 实现 基本 上 是 一 样 的 。 然 而 ， 因 为 Windows CE 定位 于 如 掌上 型 电脑 和 机 项 盒 等 
硬件 ， 它 的 API 和 Windows NT/2000/XP 确实 有 很 大 的 区 别 。 

Windows XP、2000 和 Windows NT 

Windows NT 是 在 20 世纪 80 年 代 后 期 开始 开发 的 ， 并 在 1993 年 7 月 发 布 (3.1 版 ) 公开 使 用 
[Solomon and Russinovich，2000]， 版 本 4.0 在 1996 年 7 月 发 布 。 版 本 $.0 在 2000 年 发 布 并 重 命名 为 Win_ 
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dows 2000, Windows XP 的 开发 使 用 了 Windows NT 和 Windows 98 的 源 代 码 ， 它 是 在 2001 年 10 月 发 布 
的 。 本 书 中 , “Windows NT” 指 采用 了 Windows NT 代码 的 任何 操作 系统 版 本 ， 它 包括 了 Windows 2000 和 
Windows XP。 如 果 涉 及 到 特定 操作 系统 版 本 的 讨论 ， 它 将 被 标注 出 来 。 

Windows NT 是 Windows 操作 系统 家 族 的 旗帜 。Win32 子 系统 和 Windows NT 操作 系统 实现 了 Win32 
API 的 所 有 功能 。 它 是 操作 系统 家 族 最 复杂 的 成 员 。 

Windows 95/98/Me 

Windows 98 是 Windows 95 的 一 个 更 新 版 本 ，Windows Me 是 Windows 98 的 一 个 更 新 版 本 。 在 2001 年 
之 前 ， 大 多 数 用 户 都 使 用 Windows 95/08/Me 操作 系统 。 在 此 之 后 ， 许 多 个 人 计算 机 用 户 开始 使 用 Win- 
dows NT/2000/XP。 

Windows 95/98/Me 与 Windows NT 不同 ， 因 为 它 实现 的 Win32 API 函数 比较 少 一 些 。Windows NT £ 
持 一 个 全 面 的 安全 模型 ， 而 Windows 95/08/Me 没有 。Windows NT 上 增加 的 大 部 分 函数 都 与 内 核 安 全 有 
Xo Windows 95/08/Me 提供 的 网 络 函 数 也 是 Windows NT 提供 的 网 络 函 数 的 一 个 子 集 。 其 他 的 主要 区 别 
在 虚拟 内 存 实现 方面 。Windows NT 允许 应 用 程序 员 设 置 不 同 种 类 的 参数 来 影响 对 虚拟 内 存 的 管理 ， 这 在 
Windows 95/98/Me 下 是 不 可 能 实现 的 。 

Windows CE - 

. Windows CE (Consumer Electronic) 是 这 个 家 族 中 最 小 的 成 员 ， 它 的 研发 是 为 了 打 入 小 型 计算 市 场 ， 
我 们 将 在 以 后 的 章节 中 介绍 它 。 
E 





1.2.11 EARRA 


嵌入 式 系统 就 是 包含 了 计算 机 的 复杂 设备 。 计 算 机 将 全 力 支持 整个 系统 的 运行 。 以 下 是 舱 信 式 系 统 的 
AF: 控制 大 坝 水 闸 的 计算 机 ， 控 制 核反应 推 冷却 过 程 的 计算 机 ， 操 纵 导 弹 的 计算 机 ， 控 制 销 售 点 终端 的 
计算 机 ， 控 制 住宅 洒水 系统 的 计算 机 。 这 些 年 以 来 ， 典 人 式 系统 在 商业 上 一 直 是 很 成 功 的 ， 但 随 着 大 规模 
集成 电路 的 引入 ， 它 们 的 应 用 达到 了 一 个 更 高 的 层次 。 今 天 ， 它 们 也 是 计算 机 技术 的 一 个 重要 组 成 部 分 。 


1.2.12 用 户 的 观点 


嵌 人 式 系统 没有 和 其 他 系统 一 样 的 用 户 。 嵌 人 式 系统 的 用 户 是 一 组 传感器 和 激励 器 。 嵌 人 式 系统 发 展 
的 最 初 动机 是 由 于 实现 成 本 上 的 争论 ; 用 计算 机 和 软件 实现 电子 控制 子 部 件 与 完全 用 硬件 来 实现 而 言 ， 前 
者 更 便宜 一 些 。 磁 盘 控制 器 就 是 一 个 很 好 的 例子 。 磁 盘 控 制 器 可 以 完全 用 硬件 逻辑 来 实现 ， 也 可 以 用 硬件 
人 逻 辑 与 控制 硬件 的 微型 计算 机 的 组 合 来 实现 。 今 天 ， 几 乎 所 有 的 磁盘 控制 器 都 用 嵌 人 式 系 统 来 实现 。 这 种 
方法 的 好 处 是 同样 的 控制 器 硬件 可 以 被 用 来 实现 不 同 的 控制 策略 (如 SCSI 和 IDE)。 它 也 允许 磁盘 生产 商 
只 需 为 舱 入 式 计算 机 提供 一 个 新 的 程序 ， 就 可 改变 控制 器 的 行为 。 


1.2.13 操作 系统 技术 


因为 嵌 人 式 系统 中 的 计算 机 只 是 系统 的 一 部 分 ， 所 以 嵌入 式 操作 系统 的 需求 随 着 各 个 应 用 的 不 同 而 差 
别 很 大 。 然 而 ， 商 业 艇 人 式 操 作 系统 开发 商 着 重 于 处 理 器 调度 〈 特 别 是 实时 调度 )， 使 操作 系统 使 用 的 内 
存 和 处 理 器 周期 最 少 ， 并 设计 操作 系统 使 运行 在 其 上 的 软件 使 用 尽 可 能 少 的 电量 。 

实时 计算 是 基于 如 下 观点 : 用 户 (大 量 的 硬件 传感器 和 激励 器 ) 需要 在 规定 时 间 内 接收 到 系统 对 它 的 
处 理 结果 。 例 如 ， 传 感 器 检测 到 反应 堆 核心 温度 的 增加 ， 岩 入 式 系统 必须 在 规定 的 时 间 内 发 送 一 个 信号 给 
激励 器 ， 使 得 核反应 堆 温度 降低 。 实 时 的 约束 条 件 引出 了 两 个 值得 挑战 的 问题 ; 

e 怎样 保证 响应 时 间 不 超过 某 个 最 大 值 。 

m 怎样 获得 最 小 的 响应 时 间 。 

实时 系统 技术 的 发 展 受 响 应 时 间 的 驱动 。 许 多 实时 应 用 指定 了 一 个 “ 软 ” 期 限 ， 而 不 是 一 个 硬 期 限 。 
软 期 限 就 像 一 个 延迟 家 庭 作业 策略 : 如 果 采 用 硬 期 限 策略 ， 在 期 限 到 之 后 不 再 有 机 会 做 任何 处 理 。 如 果 是 
软 期 限 ， 你 可 以 从 后 来 的 家 庭 作业 额度 中 获得 信贷 ， 然 后 ， 你 可 以 决定 在 超期 之 后 是 否 还 值得 执行 。 在 软 
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实时 的 世界 中 ， 我 们 说 操作 系统 应 该 尽力 满足 期 限 要 求 ， 如 果 没 有 在 期 限 之 内 处 理 完 ， 系 统 应 该 继续 提供 
服务 而 不 是 放弃 服务 请 求 。 

有 时 ， 一 个 嵌 人 式 系统 只 有 唯一 目的 运行 单个 的 应 用 程序 。 如 果 诸 人 式 系统 只 有 一 个 应 用 的 话 ， 就 
没 必要 实现 资源 隔离 和 并 发 进程 的 共享 策略 。 操 作 系 统 的 主要 目的 就 是 提供 硬件 资源 抽象 。 在 这 种 情况 
下 ,设计 者 可 以 将 资源 管理 作为 应 用 的 一 部 分 。 这 种 设计 方式 避免 了 应 用 程序 和 操作 系统 之 间 的 交互 带 来 
的 性 能 损失 。 它 减少 了 操作 系统 使 用 的 机 器 资源 量 ， 给 应 用 程序 留 下 了 宝贵 的 资源 。 

当代 的 谋 信 式 系统 常常 关心 在 给 定时 刻 处 理 器 使 用 的 电源 量 。 例 如 ， 如 果 垦 人 式 系 统 是 使 用 电池 供电 
系统 的 一 部 分 ， 媒 入 式 系统 使 用 的 电量 越 少 ， 则 整个 系统 其 余部 分 可 使 用 的 电量 越 多 。 在 媒人 式 系统 的 正 
常 工作 期 间 ， 不 同 种 类 的 设备 可 能 会 掉 电 ， 但 现代 操作 系统 仍然 能 够 工作 。 这 意味 着 磁盘 、 显 示 器 、 传 感 
器 、 激 励 器 暂时 掉 电 了 ， 垦 人 式 系统 仍 要 能 正常 地 工作 。 


1.2.14 对 现代 操作 系统 技术 的 贡献 


为 了 确保 满足 实时 处 理 的 约束 条 件 ， 出 于 效率 的 考虑 ， 艇 人 式 系统 趋向 于 放弃 大 而 全 的 操作 。 在 需要 
一 些 最 原始 的 功能 或 需要 某 种 形式 的 实时 处 理 时 ， 其 他 种 类 的 操作 系统 设计 也 采取 了 类 似 于 媒人 式 系统 的 


设计 技术 。 , 
在 其 他 的 操作 系统 中 ， 核 心 的 实时 技术 也 被 用 来 解决 服务 质量 问 


题 (QoS)。 例 如 ， 应 用 处 理 可 能 需要 在 指定 的 时 间 内 将 信息 通过 网 络 

发 送出 去 ,或 在 传送 过 程 中 最 小 化 偏差 (使 “ 拌 动 ”最 小 )。 这 些 需 求 
VxWorks 可 配置 
核心 操作 系统 扩展 


的 解决 比较 困难 ， 它 们 是 现代 实时 操作 系统 中 值得 努力 探讨 的 课题 。 
示例 : VxWorks 


gu 
VxWorks 在 嵌 人 式 操作 系统 领域 获得 了 极 大 的 声誉 (I http: // 图 1-14 VxWorks 结构 
www. windriver,com/) 。 这 个 产品 的 操作 系统 组 件 是 wind microkernel, 注 : VxWorks 是 一 个 模块 化 的 操 
它 是 一 个 可 扩充 的 、 可 配置 的 核心 操作 系统 GLA 1-14), RAR 作 系 统 ， 它 基于 wind micro- 
作 系 统 的 设计 者 根据 特定 的 系统 决定 使 用 操作 系统 哪些 部 分 ， 然 后 配 kernel。 可 配置 的 核心 操作 系 
置 核心 操作 系统 core OS) ， 使 得 它 仅仅 包含 需要 的 操作 系统 功能 。 RI (Configurable Core OS 
微 内 核 处 理 多 道 程序 设计 、 中 断 和 调度 。 操 作 系统 的 这 一 部 分 能 WHE Ces z 
为 应 用 层 提供 实时 支持 。 核 心 操作 系统 通过 提供 如 下 可 选 的 机 制 扩充 实现 可 用 操 作 系统 ， 运 行 时 
了 微 内 核 的 功能 ， 消息 通信 、 共 享 存储 、 网 络 支持 、 图 形 支持 、Java 系统 和 应 用 运行 在 操作 录 统 
支持 、 同 步 等 。 这 种 极度 灵活 的 结构 使 得 可 以 对 操作 系统 进行 灵活 配 扩展 (OS extension) 之 上 。 
置 ， 让 操作 系统 所 需 内 存 极 少 (Wind River 公司 说 : 操作 系统 可 以 配 
置 成 只 需 几 内存 就 可 运行 )， 同 时 ， 它 提供 给 用 户 的 功能 就 比较 少 。 










1.2.15 小 型 通信 计算 机 


芯片 技术 的 发 展 及 Internet. 的 广泛 应 用 对 计算 机 设备 的 发 展 起 到 了 极 大 的 推进 作用 。 消 费 电子 的 需求 
对 小 型 通信 计算 机 (SOC) 的 迅速 发 展 也 起 到 了 推进 作用 。 大 部 分 设备 用 于 特定 的 任务 一 一 如 便携 式 MP3 
播放 器 、 可 上 网 的 移动 电话 、 数 字 化 并 存储 电视 节目 的 机 顶 盒 等 。 移 动 计算 机 、 拥 有 无 线 网 络 连 接 的 小 型 
计算 机 都 是 SCC 的 一 个 子 集 。 即 使 这 些 设备 差别 很 大 ， 但 是 它们 暗含 的 操作 系统 概念 是 一 样 的。 更 令 人 惊 
奇 的 是 ，SCC 使 用 的 许多 操作 系统 概念 与 桌 上 型 电脑 和 服务 器 是 一 样 的 。 然 而 ， 因 为 SOC 的 资源 (如 内 
存 、 网 络 带宽 、 电 源 ) 比较 少 ， 它 们 的 实现 方法 有 显著 的 区 别 。 


1.2.16 用 户 的 观点 


一 个 SOC 操作 系统 和 其 他 操作 系统 一 样 ， 也 要 提供 硬件 抽象 和 资源 共享 。SCC 操作 系统 和 其 他 大 机 器 
操作 系统 间 的 区 别 有 : l 
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m SCC 设备 和 传统 的 机 器 设备 不 同 ，SCC 提供 的 硬件 抽象 和 传统 的 机 器 使 用 的 硬件 抽象 不 一 样 。 

m 由 于 SOC 中 使 用 的 资源 受到 了 限制 ，SCC 的 操作 系统 硬件 抽象 实现 和 传统 的 操作 系统 的 硬件 抽象 实 
现 不 一 样 。 

m 相似 的 SOC 家 族 将 使 用 相同 的 基本 内 核 ,但 是 资源 限制 将 要 求 不 同 的 家 族 成 员 使 用 不 同 的 虚拟 机 策 
略 ， 即 依赖 某 个 特定 的 物理 SCC 的 配置 。 例 如 ，VxWorks 可 以 用 来 作为 SCC 的 操作 系统 。 操 作 系 
统 应 该 支持 灵活 的 配置 和 策略 。 ， 

m SOC 可 以 以 某 种 嵌 和 人 式 系统 的 形式 出 现 ， 最 简单 的 情况 下 ， 如 通过 网 络 连接 接受 流 媒体 数据 的 播放 
器 。 传 统 的 操作 系统 并 不 使 用 实时 资源 管理 技术 ， 然 而 ， 在 SCC 中 ， 实 时 技术 经 常 被 使 用 。 

BAN SCC # Internet 应 用 这 种 新 的 计算 环境 的 基础 ， 操 作 系统 需要 适应 不 同 的 计算 模式 ， 如 操作 系 
统 需 要 适应 Web 浏览 作为 交互 执行 环境 发 展 方向 。 


1.2.17 操作 系统 技术 


SCC 需求 推进 了 操作 系统 技术 的 发 展 。 在 现代 操作 系统 中 ， 基 于 线程 的 计算 获得 了 稳定 的 发 展 。 基 于 
线程 的 计算 改变 了 操作 系统 的 设计 : 线程 执行 间 的 障碍 与 进程 执行 间 的 障碍 不 同 ， 因 为 基于 线程 的 计算 比 
基于 进程 的 计算 使 用 的 资源 少 。SCC 是 围绕 线程 计算 而 不 是 进程 计算 设计 的 。 

在 现代 操作 系统 中 ， 对 流 媒体 的 支持 是 非常 重要 的 。 在 SCC 中 ， 对 流 媒 体 的 支持 是 必须 的 。 这 是 因为 
SOC 的 设备 存储 容量 比较 少 。 对 SOC 操作 系统 设计 的 一 个 技术 挑战 是 ， 需 要 调整 虚拟 机 调度 的 策略 ， 使 得 
操作 系统 能 为 软 实 时 数据 的 发 送 提供 足够 的 支持 。 . 

传统 的 操作 系统 的 设计 要 使 得 当 一 个 应 用 请 求 比 现 有 计算 机 中 的 可 用 资源 更 多 的 资源 时 ， 操 作 系统 要 
有 一 个 固定 的 、 尽 力 而 为 的 资源 分 配 策略 。 这 种 策略 在 操作 系统 设计 时 就 确定 了 ， 并 独立 于 计算 机 使 用 的 
环境 。 在 SCC 操作 系统 中 ， 系 统 频 繁 地 被 超支 。 然 而 ， 对 操作 系统 采取 尽力 而 为 的 策略 是 不 可 接受 的 。 因 
为 它 将 使 得 操作 系统 工作 在 一 种 与 计算 机 目标 不 一 致 的 状态 。 将 来 的 SCC 操作 系统 需要 设计 成 在 使 用 一 
个 特定 的 资源 分 配 策略 时 充分 利用 该 特定 应 用 的 知识 。 

SCC 经 常 在 比 传统 计算 机 对 资源 管理 要 求 更 具 挑 战 性 的 情形 下 使 用 。 例 如 ， 在 移动 计算 机 中 ， 维 持 系 
统 运行 的 电源 供电 时 间 对 整个 计算 机 的 使 用 是 一 个 限制 因素 。 资 源 管理 策略 要 能 对 设备 自动 掉 电 进行 处 
理 ， 甚至 可 以 决定 设备 是 否 应 该 切断 电源 (可 以 对 其 进行 配置 ， 使 得 其 运行 需要 更 少 的 电源 )。 

在 移动 计算 环境 中 ， 在 机 器 操作 期 间 ， 网 络 连接 可 能 在 某 一 时 间 段 变 得 不 可 用 。 网 络 的 特性 可 能 也 随 
时 间 变 化 一 一 有 时 无 线 信号 很 强 并 且 带 宽 很 高 ， 然 而 在 其 他 时 间 ， 信 号 比较 弱 且 相应 的 带宽 比较 低 。SCC 
资源 管理 策略 需要 能 适应 可 用 的 动态 资源 。 

最 后 ，SCC 并 不 是 在 一 个 孤立 的 环境 下 使 用 的 ， 而 是 在 许多 传统 的 业务 (如 无 线 电 通信 、 娱 乐 广播 、 
实时 命令 和 控制 、Internet 信息 发 送 等 ) 下 发 展 起 来 的 。 这 是 现实 世界 中 业务 趋势 变化 及 个 人 日 常生 活 信 
息 化 的 结果 。 对 这 些 汇 合 事务 操作 的 任何 计算 机 必须 要 对 网 络 协议 、 网 络 服务 信息 发 送 模型 、 内 容 缓冲 等 
进行 处 理 。 用 在 商业 上 的 SCC 操作 系统 需要 处 理 许多 不 同 种 类 的 协议 和 行为 。 

SCC 操作 系统 技术 还 处 于 早期 发 展 阶段 一 一 但 现在 开始 研究 它 也 不 算 太 早 。 有 大 量 的 操作 系统 被 设计 
在 SCC 上 使 用 : 

m VxWorks 可 以 作为 SCC 的 操作 系统 。 

m 微软 Windows Embedded 和 Windows CE (也 称 Pocket PC) 也 是 特别 为 SCC 而 设计 的 。 见 http: // 

www. microsoft . com/windows/embedded/,. 

m Palm Pilot 操作 系统 也 是 特别 为 PDA 而 设计 的 ， 产品 包括 了 Palm Pilot, Handspring Visor, Sony 

CLIE % (J http: //www.palmos.com)。 该 操作 系统 有 很 多 的 追随 者 。 
m Java 虚拟 机 (JVM) 可 以 认为 是 一 个 SCC 操作 系统 。 一 般 来 说 ，Java 虚拟 机 是 作为 主机 操作 系统 之 
上 的 一 个 应 用 而 实现 的 。 然 而 ， 也 可 以 将 它 作为 宿主 机 操作 系统 来 实现 。 





示例 : Windows CE (Pocket PC} 
Windows CE 也 称 Pocket PC， 用 于 PDA 设备 上 。 它 来 自 微软 的 两 个 研发 项 目 ，Microsoft-at-Work 和 
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Pulsar。 虽 然 这 两 个 项 目的 操作 系统 有 相似 的 需求 ， 但 两 个 项 目 组 都 在 开发 自己 的 操作 系统 。 后 来 做 了 一 
个 共同 的 决定 ， 即 设计 满足 两 个 项 目 需求 的 操作 系统 。 最 初 的 Windows CE 操作 系统 是 一 个 面向 对 象 的 操 
作 系 统 ， 但 是 ， 随 着 面向 对 象 系统 的 开发 ， 一 组 CE 的 设计 者 开发 了 一 个 可 替换 的 操作 系统 内 核 ， 它 实现 
了 Win 32 API 的 一 个 子 集 。“ 新 内 核 ” 简 称 为 “nk”[Murray，1998]，nk 内 核 最 后 变 成 了 Windows CE 操 
作 系 统 。 

Windows CE 操作 系统 和 其 他 操作 系统 的 设计 目标 有 很 大 的 不 同 。 例 如 ，Windows NT 提供 的 API 需要 
兼容 原来 操作 系统 的 API。 因 此 ， 在 Windows NT 上 可 以 运行 MSDOS，Win16， 甚 至 OS] 应 用 程序 。 
Windows CE 并 不 需要 提供 兼容 性 支持 。 它 和 以 前 所 有 的 微软 操作 系统 应 用 领域 不 一 样 。Windows CE 可 以 
设计 成 在 不 同 的 硬件 平台 上 实现 。 结 果 ， 它 实现 了 一 个 硬件 抽象 层 ， 称 为 OEM 抽象 层 (OAL). 

Windows CE 1.0 版 工作 在 手持 PC 上 。 版 本 2 和 





以 后 的 版 本 是 一 个 可 配置 的 模块 化 系统 。 也 就 是 说 ， 外 这 和 应 用 

不 用 为 不 同 的 硬件 配置 重新 编译 操作 系统 ， 就 可 以 将 Win32 API( 及 网 络 扩 展 ) 

不 同 的 操作 系统 组 件 进行 组 合 来 得 到 一 个 新 的 操作 系 she 网 络 和 图 形 窗口 

统 。 它 可 以 在 手持 PC、 车 载 计算 机 、 游 戏 计算 机 和 机 ake 存储 通信 服务 管理 器 和 

TALEH. 事件 管理 器 
不 要 指望 为 消费 电子 设备 设计 的 操作 系统 会 提供 设备 驱动 程序 

与 桌面 计算 机 一 样 的 图 形 和 网 络 支持 。Windows CE 并 OEM 轴 象 层 

没有 提供 所 有 的 Win32 API BR, MARR. oO 

管理 函数 、 网 络 函 数 。 (ERE RRE Windows NT 图 1-15 Windows CE 组 成 

中 都 实现 了 。) 这 极 大 地 简化 了 Windows CE 的 设计 ， $: Windows CE 构建 在 OEM 抽象 层 的 上 面 ， 使 得 

如 图 1-15 所 示 。 它 易于 在 不 同 的 硬件 平台 上 进行 移植 。 操 作 系 
Windows CE itt AAT ik At ABE [Murray， 统 是 由 内 核 、 设 备 驱动 程序 、 对 象 存储 以 及 网 


1998]。 贬 入 式 应 用 常常 需要 操作 系统 在 给 定 的 期 限 内 络 和 通信 服务 组 成 。 图 形 、 窗 口 管理 器 以 及 事 
保证 完成 某 种 服务 。 这 影响 了 Windows CE 中 的 中 断 件 管理 器 逻辑 上 不 同 于 操作 系统 的 其 他 部 分 ， 
处 理 、 设 备 驱动 以 及 线程 调度 的 设计 ， 使 得 它们 和 BE, BRUNE Windows CE 铝 作 系统 的 一 
Windows NT 的 差别 极 大 。 部 分 。 





1.2.18 网 络 


个 人 计算 机 和 工作 站 的 普及 导致 了 对 系统 的 更 高 要 求 ， 系 统 不仅 能 够 有 效 地 完成 本 地 计算 ， 还 能 通过 
高 速 网 络 访问 存储 在 另 一 台 计 算 机 中 的 信息 。 现 在 ， 系 统 软件 都 重视 提供 支持 单个 计算 机 经 由 局 域 网 和 广 
域 网 进行 互 连 的 应 用 。 对 系统 软件 设计 者 来 说 ， 网 络 中 本 地 或 远程 资源 的 隔离 、 共 享 以 及 抽象 引出 了 新 的 
挑战 ， 这 也 是 该 领域 当代 研究 的 主导 前 沿 。 

直到 20 世纪 80 FR, 计算机 才 逐 渐 实 现 点 对 点 的 相连 ， 以 串 行 方式 进行 通信 ， 通 信和 速率 小 于 
10Kbps。 如 果 要 进行 多 台 机 器 的 互 连 ， 要 么 实现 一 个 完全 互 连 的 网 络 ， 其 中 的 每 两 台 机 器 都 以 点 对 点 的 方 
式 连接 ; 要 么 机 器 通过 路 由 网 络 (routing network) 互 连 。( 在 一 个 路 由 网 络 中 ， 任 意 两 台 机 器 之 间 都 存在 
一 条 “路 径 ”， 每 个 机 器 必须 能 给 其 他 机 器 发 送信 息 ， 因 而 所 有 的 机 器 共同 形成 一 个 逻辑 网 络 ， 如 同 是 一 
.个 完全 连接 的 网 络 一 样 。) 

大 约 在 个 人 计算 机 和 工作 站 开始 发 展 的 同时 ， 局 域 网 (Local Area Networks, LAN) 成 了 一 种 高 性 价 
比 的 通信 技术 。 在 1980 年 ， 以 太 网 和 令 牌 环 局 域 网 都 实现 了 一 个 逻辑 上 完全 连接 的 网 络 ， 传 输 速 度 在 
10~16 Mbps 之 间 ， 比 点 对 点 转发 网 络 的 速度 快 了 三 个 数量 级 。 这 些 局 域 网 能 将 小 的 计算 机 互 连 ， 也 可 以 
与 大 的 计算 机 连接 ， 实 现 了 相对 比较 高 速 的 连接 ， 而 成 本 则 相对 比较 低 。 这 引起 了 计算 方式 的 革命 ， 现 在 
计算 可 分 布 在 整个 网 络 内 共同 完成 。 

从 2000 年 开始 ， 无 线 网 络 技术 作为 种 重要 的 通信 技术 出 现 了 。 无 线 技术 依赖 于 某 个 范围 内 的 广播 
频率 。 这 些 广播 频率 并 没有 被 其 他 的 广播 技术 所 使 用 (如 无 线 电 收音 机 、 电 视 机 、 卫 星 等 )。 对 每 个 人 来 
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Ui, A2~5 GHz 的 公共 带宽 可 以 使 用 。 通 信 标 准 的 草案 采纳 了 两 种 流行 的 无 线 局 域 网 设计 (IEEE 
802.11b ( “WiFi”) #1 IEEE 802.15 (“Bluetooth”))。 无 线 网 络 趋 于 在 小 的 物理 区 域内 使 用 (半径 不 到 100 
英尺 的 范围 )， 能 以 11Mbps 的 速率 来 传送 数据 包 。 无 线 网 络 的 引入 对 计算 设备 特别 是 SCC 有 极 大 的 影响 。 
目前 ,出 现 了 一 些 更 快 、 更 安全 的 无 线 局 域 网 络 。 例 如 ，IEEE 802.11a 网 络 与 IEEE 802.11b 相似 ,但 是 
有 着 数量 级 的 速度 提高 。 无 线 技术 将 影响 下 一 代 计算 机 的 出 现 和 操作 系统 的 设计 。 

软件 技术 在 便宜 的 计算 机 硬件 和 网 络 带宽 的 刺激 推动 下 ， 也 得 到 迅速 发 展 ， 出 现 了 粗 粒 度 的 (large- 
grained). FABRA (loosely coupled) 的 分 布 式 计 算 ， 主 要 是 客户 - 服务 器 模式 的 计算 。 现 在 ， 在 一 些 
10 一 100 Mbps 速率 的 局 域 网 中 ， 网 络 磁盘 服务 器 、 文 件 服务 器 、 打 印 服务 器 、 数 据 库 服务 器 、 通 信服 务 
器 ， 以 及 其 他 的 网 络 设备 都 是 常见 设备 。 甚 至 出 现 了 用 高 速 网 络 (1000Mbps) 进行 高 速 计算 机 和 子 网 间 的 
互 连 。 网 络 计算 的 发 展 ， 也 迫使 操作 系统 从 分 时 和 多 道 程序 设计 系统 向 支持 网 络 化 方向 发 展 ， 系 统 必须 支 
持 网 络 通 信 、 分 布 式 资源 管理 策略 、 新 的 进程 间 通 信 策略 和 新 的 内 存 管理 策略 。 

在 最 近 的 几 年 里 ， 网 络 上 出 现 了 浏览 器 的 应 用 ， 它 可 以 访问 公共 互联 网 。 这 种 新 的 计算 模型 使 得 用 户 
可 以 通过 网 络 搜索 访问 远程 计算 机 的 资源 。 网 络 协议 的 出 现 使 其 变 得 可 能 ， 特 别 是 IP 协议 、TCP 协议 和 
用 来 浏览 网 页 的 HTTP 协议 。 网 页 浏览 器 和 互联 网 络 信息 的 传送 对 操作 系统 的 技术 有 很 大 的 影响 作用 。 


1.2.19 现代 操作 系统 的 起 源 


现代 操作 系统 是 从 前 面 章节 中 所 谈 及 的 所 有 系统 演化 而 成 的 ， 如 批 处 理 、 分 时 系统 、 个 人 计算 机 和 工 
作 站 软件 、 能 人 式 系统 、 小 型 通信 计算 机 (Small Communication Computer) ， 以 及 网 络 操作 系统 (参见 图 
1-16)。 现 代 操作 系统 从 批 处 理 和 分 时 系统 继承 了 多 道 程 序 设 计 的 技术 。 保 护 和 安全 技术 首先 出 现在 批 处 
理 系统 中 ， 而 后 在 分 时 环境 中 得 以 迅速 发 展 。 人 - 机 交互 技术 成 了 分 时 系统 的 关键 问题 ， 随 着 小 型 通信 计 
算 机 的 出 现 ， 这 个 问题 变 得 更 为 突出 了 。 随 着 个 人 计算 机 和 工作 站 的 发 展 ， 这 种 人 机 交互 需求 愈 发 明显 。 
用 户 开 始 要 求 使 用 窗口 和 其 他 面向 可 视 化 的 技术 。 客 户 - 服务 器 的 网 络 编程 模型 (文件 服务 器 、 打 印 服务 
器 、 数 据 库 服务 器 等 ) 是 从 支持 网 络 通信 的 系统 发 展 而 来 的 。 嵌 人 式 系统 影响 了 现代 操作 系统 中 的 实时 管 
理 、 同 步 方法 、 调 度 策略 以 及 数据 移动 等 方面 。 





、 ”图 1-16 现代 操作 系统 的 演化 
注 : 现代 操作 系统 是 从 批 处 理 系统 、 分 时 系统 、 个 人 计算 机 和 工作 站 系统 、 戏 人 式 系统 、 网 络 操作 系统 进化 
而 来 。 


1.3 小 结 


计算 机 是 通过 应 用 软件 所 提供 的 功用 性 来 证 明 其 价值 的 。 如 果 应 用 软件 不 能 有 效 工 作 ， 那 么 整个 计算 
机 系统 也 不 是 有 效 的 。 系 统 软件 和 硬件 对 终端 用 户 是 透明 的 ， 系 统 软件 只 是 用 来 支持 程序 员 的 工作 ， 一 般 
终端 用 户 使 用 应 用 程序 去 处 理 信息 ， 因 而 对 他 们 来 说 ， 系 统 软件 和 硬件 是 没有 直接 价值 的 。 
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系统 软件 为 应 用 程序 员 提供 了 抽象 接口 ， 包 括 各 种 硬件 资源 和 低层 系统 软件 的 抽象 接口 。 操 作 系 统 允 
许 对 处 理 器 进行 时 分 复 用 〈 对 内 存 进 行 空 分 复 用 )， 使 得 从 用 户 的 角度 看 程序 就 像 并 发 执行 一 样 。 多 道 程 
序 设 计 使 得 我 们 将 程序 的 执行 作为 进程 来 看 待 。 它 也 开始 促使 我 们 考虑 程序 的 并 发 执行 的 各 种 特性 。 操 作 
系统 需要 管理 资源 使 得 资源 既 可 以 被 进程 独占 使 用 ， 也 可 以 在 进程 间 对 资源 进行 共享 。 

操作 系统 的 发 展 过程 源 于 单 用 户 计算 机 ， 经 过 批 处 理 多 道 程序 设计 系统 、 分 时 系统 、 个 人 计算 机 和 工 
作 站 系统 、 网 络 互 连 系 统 ， 发 展 到 现在 的 垦 和 人 式 系 统 、 小 型 通信 计算 机 系统 (SCC)。 批 处 理 多 道 程序 设计 
系统 引入 了 支持 作业 间 并 发 的 技术 。 分 时 操作 系统 扩展 了 多 道 程序 设计 的 思想 ， 因 而 每 个 用 户 作业 在 同一 
时 间 片 内 能 够 有 多 个 进程 执行 。 因 为 在 分 时 系统 中 进程 数 的 激增 ， 用户 间 以 及 进程 间 的 保护 和 安全 问题 变 
得 突出 。 今 天 ， 由 于 计算 机 的 普及 和 互 连 ， 保 护 和 安全 问题 变 得 更 加 重要 。 

作为 本 章 的 延续 ， 下 一 章 将 考虑 系统 软件 ， 尤 其 是 操作 系统 提供 给 程序 员 使 用 的 资源 抽象 的 一 般 模型 。 


1.4 


1. 
2. 


习题 

请 说 出 抽象 资源 和 物理 资源 的 区 别 ， 并 分 别 列举 两 个 例子 。 

IBM 的 个 人 计算 机 系统 在 BIOS 程序 中 提供 了 设备 的 访问 接口 。 那 么 针对 Intel 8088 抽象 机 ，BIOS 
中 提供 了 哪些 资源 抽象 ? (提示 : 在 通常 条 件 下 ， 如 果 你 在 显示 器 上 显示 一 个 字符 ， 那 么 使 用 BIOS 
命令 与 不 使 用 有 什么 区 别 ?) 


. 假如 你 有 一 大 堆 小 物品 ， 存 储 在 一 个 矩形 网 格 中 〈 像 一 个 表 )。 你 可 以 通过 有 序 对 〈i，j) 来 找到 


存储 在 表格 中 的 小 物体 。 请 设计 一 个 单数 地 址 来 找到 存储 在 表格 中 的 小 物体 。 如 可 以 使 用 (12, 
30) 来 表示 1247. 30 列 位 置 的 小 物体 ， 也 可 以 用 1230 这 个 地 址 来 表示 。( 提 示 : 想像 一 下 宾馆 如 
何 为 它们 的 房间 编号 的 。) 这 与 磁盘 轨道 和 肩 区 的 地 址 表示 方式 相同 。 


. 在 面向 对 象 程序 设计 语言 (如 Java 或 C++ ) 中 ,程序 可 以 通过 什么 方式 将 值 存储 在 不 同 对 象 的 私 


有 变量 中 。 为 读 写 它 的 私有 变量 提供 一 种 抽象 方式 ， 想 想 这 种 抽象 方式 是 什么 ? 


. 在 下 面 的 例子 中 ， 哪 一 个 是 时 分 复 用 共享 的 例子 ， 哪 一 个 是 空 分 复 用 共享 的 例子 。 并 作出 解释 。 


a. 住宅 区 的 土地 

b. 个 人 计算 机 

c. 教室 里 的 黑板 

d. 公共 汽车 上 的 椅子 

e. UNIX 系统 上 的 单 用 户 文件 
f. 分 时 系统 中 的 打印 机 

g. C/C++ 运行 时 系统 的 堆 区 


. 多 道 程序 设计 度 (the degree of multiprogramming) 就 是 一 个 处 理 器 在 任何 时 刻 可 以 运行 的 进程 的 最 


大 数目 。 在 决定 一 个 系统 的 多 道 程序 设计 度 时 ， 请 讨论 一 下 哪些 因素 是 要 考虑 的 。 你 可 以 设 定 一 
个 批 处 理 系统 中 进程 数 与 作业 数 是 相同 的 。( 在 后 面 的 章节 中 ， 会 详细 讨论 几 个 需要 考虑 的 因素 。) 


. 考虑 有 N 个 进程 的 多 道 程序 系统 ， 每 个 进程 的 执行 时 间 为 :ti ，t,，…，zn。 如 何 能 使 总 的 执行 


时 间 等 于 maximum (tis ta, °", tn), 可 能 做 到 吗 ? 


. 考虑 有 N 个 进程 的 多 道 程序 系统 ， 每 个 进程 的 执行 时 间 为 ，t1，t,，-…，tw。 如 何 使 得 总 执行 时 


lA] T >t) + tots + ty? 也 就 是 说 ,什么 情况 会 使 得 总 执行 时 间 超过 了 单个 进程 执行 时 间 的 总 和 ? 


. 当 通 过 计算 机 去 完成 工作 时 ， 什 么 情况 下 会 选用 批 处 理 策 略 ? 什么 情况 下 会 选用 分 时 策略 ? 

. 分 时 系统 中 处 理 器 的 调度 策略 与 批 处 理 系 统 中 的 有 哪些 不 同 ? 

. Windows NT, Windows 2000 和 Windows XP 间 有 哪些 区 别 ? 

. TE AT&T (System V) UNIX 和 BSD UNIX 系统 间 有 哪些 区 别 ? 

. POSIX.1 和 Linux 间 有 些 什 么 关系 ? 

. 在 Windows 操作 系统 中 ， 硬 件 抽象 层 的 目的 是 什么 ? 

. UNIX 中 的 makefile 文件 与 批 处 理 文件 有 哪些 相似 之 处 ? 它 与 本 章 中 描述 的 控制 文件 有 哪些 不 同 ? 
. 分 时 技术 对 操作 系统 做 出 了 什么 贡献 ? 

. 内 人 式 系统 对 现代 操作 系统 有 什么 贡献 ? 


第 2 章 ， 使 用 操作 系统 


本 章 从 应 用 程序 员 的 角度 来 描述 操作 系统 。 这 一 章 中 主要 介绍 操作 系统 系统 调用 接口 的 概念 ， 它 反应 
了 操作 系统 设计 时 的 需求 。 对 一 个 有 经 验 的 程序 员 来 说 ， 这 部 分 内 容 可 能 显得 浅显 了 。 如 果 你 正在 学 习 编 
程 ， 本 章 介 绍 的 系统 调用 接口 将 有 助 于 你 更 有 效 地 使 用 计算 机 。 本 章 对 如 何 使 用 操作 系统 虚拟 机 进行 了 概 
念 化 的 描述 ， 并 伴 有 使 用 UNIX 和 Windows 虚拟 机 的 应 用 例子 。 在 继续 进行 本 书 的 学 习 之 前 ， 理 解 这 部 分 
概念 是 十 分 重要 的 。 因 为 本 书 其 他 部 分 从 系统 设计 者 或 者 系统 程序 员 的 角度 来 考虑 操作 系统 的 内 部 设计 ， 
假定 你 已 经 知道 了 本 章 的 这 些 概念 。 


2.1 程序 员 看 到 的 虚拟 机 


一 切 都 应 该 尽 可 能 地 简单 ， 但 不 要 太 简 单 。 


一 “阿尔 伯 特 : 爱 因 斯 坦 
程序 员 的 任务 就 是 开发 软件 ， 让 软件 控制 计算 机 硬件 为 终端 用 户 执行 特定 的 信息 处 理 任务 。 终 端 用 户 
的 具体 需求 可 能 相差 很 大 : 用 计算 机 来 保持 个 人 记录 ， 进 行 公司 记 帐 ， 解 决 数字 计算 问题 ， 宇 宙 飞 船 导 航 
等 。 为 了 为 终端 用 户 提供 有 效 的 解决 方案 ， 程 序 员 必须 要 充分 了 解 应 用 领域 ， 并 要 利用 计算 机 的 特性 来 更 
有 效 地 开发 应 用 程序 。 
操作 系统 在 硬件 平台 上 定义 了 一 个 逻辑 的 软件 环境 ， 也 就 是 
第 1 章 介绍 的 虚拟 机 。 抽 象 要 尽 可 能 简单 ， 但 要 为 应 用 程序 员 使 
用 底层 硬件 提供 足够 强 的 功能 。 例 如 ， 飞 行 员 驾 驶 喷气 式 飞机 时 
使 用 的 是 一 个 复杂 的 抽象 模型 ( 见 图 2.1)。 这 个 模型 忽略 了 转弯 
时 的 高 度 、 飞 行动 力学 等 ， 飞 行 员 仅 需要 知道 掌舵 、 加 速 、 潭 车 
( 像 开 汽车 一 样 ) 就 可 以 操纵 飞机 了 。 飞 行 员 的 模型 被 简化 了 ， 但 
仍然 比 汽车 驾驶 员 的 模型 复杂 ， 这 是 因为 操纵 飞机 比 驾驶 汽车 更 
困难 。 
为 了 开发 应 用 软件 ， 程 序 员 可 以 利用 系统 提供 的 一 些 编程 工 
具 ， 它 使 得 应 用 程序 员 不 必 知 道 一 些 细节 知识 。 另 外 ， 因 为 现代 
的 计算 机 都 是 使 用 多 道 程序 设计 技术 ， 虚 拟 机 环境 功能 要 足够 强 ， 
要 为 并 发 程序 执行 提供 支持 ， 而 且 要 使 得 应 用 程序 员 容易 理解 和 
使 用 。 并 发 抽象 的 原因 就 是 为 并 发 进程 对 系统 部 件 提供 一 个 独占 
式 的 (资源 隔离 访问 环境 ， 同 时 也 要 支持 进程 对 资源 的 共享 访 
问 。 图 2-1 飞行 员 见 到 的 虚拟 机 
A 注 : 飞行 员 面 临 一 个 复杂 的 仪器 控制 面 
2.1.1 顺序 计算 i, 它 是 在 开 飞机 时 用 来 控制 飞机 
在 应 用 软件 开发 的 早期 ， 我 们 使 用 了 顺序 计算 的 思想 。 算 法 的 。 这 些 仪器 会 告诉 飞行 员 有 关 飞机 
是 这 种 计算 方法 的 基础 。 算 法 就 是 顺序 执行 的 指令 集合 。 例 如 ， KRE AE BH EREKE 
排序 算法 描述 了 对 一 组 数据 进行 排序 的 步骤 。 算 法 可 以 用 数学 符 D 上升/ 下 降 的 角度 、 左 /右倾 余 
号 、 伪 代码 〈 像 一 种 程序 设计 语言 )、 自 然 语 言 (如 英语 ) 来 表  “” 的 角度 等 。 仪 器 上 也 有 对 引擎 、 换 向 
示 。 算 法 的 执行 只 有 一 个 人 口 点 = 一 旦 开始 执行 ， 它 就 按 程序 中 器 、 机 村 、 起 落 装置 和 许多 飞机 其 他 
指定 的 控制 流 顺 序 执行 。 语 句 是 逐条 执行 的 ， 也 可 用 条 件 分 支 。 “部 分 的 控制 
(类 似 C 中 的 二 then-else 语 句 ) 和 循环 (类 似 while 和 for 语句 ) 结构 来 改变 控制 流 。 
算法 语言 常用 来 表示 一 个 问题 的 解决 办 法 ， 它 忽略 了 细节 性 的 描述 ， 容 易 出 现 二 义 性 。 程 序 设计 语言 
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可 以 用 来 对 算法 进行 编码 ， 它 是 算法 的 完全 准确 的 
描述 。 编 码 的 结果 就 是 源 程序 (source program)。 有 > 
许多 程序 设计 语言 可 以 用 来 表示 算法 (如 Java, C a 
C++ )。 程 序 设 计 包 括 了 算法 的 构建 和 用 程序 设计 = 
语言 表示 算法 的 过 程 ( 见 图 22). 

翻译 工具 是 开发 计算 机 系统 软件 的 一 种 工具 ， 
它 可 以 将 源 程序 转换 为 二 进 制 程序 (binary program) 
(有 时 也 叫 目标 程序 、 二 进 制 目标 程序 或 可 执行 程 
序 )。 二 进 制 程序 是 算法 的 另 一 种 表示 ， 它 可 由 计算 
机 硬件 直接 执行 。 二 进 制程 序 通过 过 程 调 用 来 使 用 
操作 系统 提供 的 功能 。 例 如 ， 为 了 结束 一 个 算法 ， 
进程 可 以 使 用 操作 系统 提供 的 exit O 函数 。 为 了 





从 一 个 文件 中 读 信 息 ， 进 程 可 以 使 用 read () 函数 。 图 2-2 算法 、 程 序 和 进程 
二 进 制程 序 只 包含 机 器 指令 ,特别 包含 了 调用 操作 TE: 程序 员 用 算法 来 表达 问题 的 解决 方法 。 然 后 ， 他 
系统 过 程 的 指令 。 们 将 算法 表示 成 源 程序 。 源 程序 被 转换 成 可 以 加 


普通 的 机 器 指令 (如 加 法 和 乘法 指令 ) 可 以 直 载 执行 的 一 进 制 程序 。 在 多 道 程序 环境 中 ， 二 进 
接 引起 计算 机 执行 规定 动作 。 操 作 系统 的 过 程 调 用 制程 序 是 抽象 成 进程 概念 来 运行 的 。 当 进程 得 到 
表示 了 一 组 硬件 的 操作 的 抽象 。 例 如 ，exit () 调 ” ” 运行 所 需 的 资源 后 ， 就 可 以 开始 运行 了 。 
用 能 使 算法 中 止 执行 ， 使 得 程序 员 不 用 直接 写 控制 硬件 的 操作 。 同 样 ，read O 函数 可 以 使 应 用 程序 从 硬 
件 设备 上 得 到 输入 信息 ， 将 输入 信息 作为 结果 传 回 给 调用 函数 。 程 序 员 不 必 知 道 读 磁 盘 的 细节 。 这 些 函 数 
调用 由 给 定 的 软件 (也 称 为 应 用 编程 接口 (API)) 来 实现 。 在 大 多 数 操作 系统 中 ， 常 把 系统 调用 接口 称 为 
API。 

图 2-2 的 其 余部 分 解释 了 在 多 道 程 序 设计 环境 下 顺序 计算 的 思想 。 程 序 员 编写 软件 时 ， 他 认为 程序 中 
的 语句 是 顺序 执行 的 ， 这 与 程序 设计 语言 的 语义 相 一 致 。 但 操作 系统 是 通过 时 分 复 用 方式 来 使 用 处 理 器 
的 ， 所 以 , 来 自 不 同 程序 的 指令 可 能 是 交错 执行 的 。 事 实 上 ， 操 作 系 统 也 确保 了 在 同一 时 间 内 有 多 个 程序 
在 执行 (使 用 时 分 复 用 处 理 器 共享 )。 

一 旦 构建 好 一 个 程序 ， 它 可 以 通过 以 下 方式 运行 : 

1) 使 用 特定 的 编译 器 来 对 程序 进行 编译 。 

2) 为 程序 运行 提供 必要 的 数据 。 

3) 提示 操作 系统 在 程序 的 main () 函数 入 口 点 开始 执行 。 

4) 根据 控制 说 明 来 继续 执行 程序 语句 。 

顺序 语句 会 一 直 执行 ， 可 以 隐 式 地 让 程序 控制 流转 到 最 后 一 条 语句 ， 或 在 程序 中 调用 exit () 来 终止 
程序 执行 。 

操作 系统 是 通过 定义 进程 来 表示 程序 的 执行 的 。 执 行 中 的 程序 称 为 经 典 进程 ， 进 程 是 包含 程序 、 数 
据 、 文 件 和 其 他 资源 的 计算 环境 。 它 也 包含 了 一 个 称 为 执行 引擎 (execution engine) 的 操作 系统 抽象 。 执 
行 引擎 表示 了 进程 的 一 部 分 ， 它 包括 了 表示 进程 当前 状态 的 操作 系统 内 部 数据 结构 ， 以 及 进程 运行 时 栈 的 
拷贝 ( 栈 包 括 局 部 变量 、 函 数 返 回 地 址 等 ) 。 


2.1.2 多 线程 计算 


可 以 对 顺序 计算 进行 扩展 ， 使 得 一 个 进程 内 可 以 有 多 个 线程 并 发 执行 。 这 是 一 种 团队 分 工 协 作 的 思 
想 : 假定 会 计 室 里 一 个 会 计 师 要 清算 公司 的 所 有 发 票 ， 将 它 与 购买 订单 进行 核实 ， 并 将 核实 结果 进行 发 
布 。 会 计 师 做 这 项 工作 有 一 个 固定 的 流程 (和 程序 相似 )， 有 会 计 师 必须 处 理 的 具体 数据 (如 发 票 和 购买 
订单 )。 会 计 师 在 会 计 室 的 工作 与 传统 的 顺序 进程 执行 相 类 似 。 如 果 我 们 要 更 快 地 处 理发 票 ， 则 可 以 再 雇 
用 一 个 会 计 师 。 我 们 可 以 为 他 分 配 一 个 新 办 公 室 ， 然 后 为 每 一 个 会 计 师 分 配 一 半 的 发 票 让 他 们 处 理 〈 见 图 
2-3a)。 然 而 ， 两 个 会 计 师 的 工作 流程 相同 并 且 都 要 参考 同一 份 购买 订单 文件 。 
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a) 单独 的 进程 b) 一 个 进程 中 有 两 个 线程 


图 2-3 多 线程 记 帐 处 理 
注 : 线程 在 进程 中 就 如 同 会 计 师 在 办 公 室 里 。 在 a) 图 中 ， 两 个 办 公 室 内 各 有 一 个 会 计 师 ， 不 易于 共享 购买 订 
单 。 在 b) 图 中 ， 在 一 个 办 公 室 里 有 两 个 会 计 师 〈 两 个 执行 实体 在 同一 个 环境 下 )。 


还 有 一 个 可 供 选择 的 办 法 (在 软件 中 非常 有 用 ， 但 用 于 会 计 师 可 能 不 太 合适 )。 假 定 我 们 克隆 一 个 会 
计 师 并 将 它 和 原来 的 会 计 师 放 在 相同 的 房间 内 ( 见 图 2-3b)， 现 在 两 个 会 计 师 都 使 用 一 样 的 工作 过 程 ， 同 
一 堆 发 票 ， 同 一 份 购买 订单 文件 ， 但 是 有 两 个 会 计 师 处 理发 票 。 在 软件 世界 里 ， 这 就 像 一 个 进程 定义 了 同 
一 份 程序 和 数据 ， 但 是 它 有 两 个 不 同 的 执行 流 。 这 种 方法 叫做 多 线程 计算 。 每 个 执行 路 线 〈 与 一 个 会 计 师 
相似 ) 就 是 一 个 线程 。 两 个 线程 使 用 相同 的 程序 和 全 局 数据 ， 但 它们 以 各 自 的 速率 执行 程序 。 因 为 在 不 同 
的 时 间 里 ， 它 们 可 以 调用 不 同 的 函数 ， 所 以 每 个 线程 都 有 自己 的 堆栈 。 

Java 是 用 Thread 线程 基 类 来 支持 多 线程 计算 的 。 程 序 员 可 以 定义 Thread 基 类 的 子 类 MyThread。 当 创 
建 一 个 MyThread 的 实例 时 ， 它 定义 了 一 个 新 的 、 独 立 的 线程 ， 它 能 使 用 进程 的 全 局 数据 。 这 意味 着 Java 
计算 可 以 用 多 线程 来 实现 。 i 

对 于 多 线程 来 说 ， 如 果 程 序 运行 在 多 道 程序 设计 系统 中 ， 两 个 或 多 个 线程 可 以 采用 时 分 复 用 的 方式 来 
使 用 处 理 器 ， 但 它们 共享 相同 的 程序 和 数据 。 如 果 多 线程 计算 在 多 处 理 器 上 运行 的 话 ， 那 么 两 个 线程 能 够 
并 行 执行 。 

多 线程 进程 是 一 个 比较 新 的 技术 。 有 些 操作 系统 仅 支持 进程 进行 顺序 计算 ， 但 在 这 些 系统 中 ， 可 以 用 
类 库 来 实现 多 线程 ， 操 作 系统 本 身 不 支持 多 线程 进程 。 例 如 ，Java 线程 就 是 在 Java 虚拟 机 上 实现 的 ， 而 不 
是 在 操作 系统 中 实现 的 。 


2.2 资源 


当 进 程 (或 进程 中 的 线程 ) 执行 时 ， 需 要 计算 机 的 资源 (至 少 需 要 处 理 器 和 内 存 )， 也 需要 向 计算 机 
的 输入 /输出 设备 存储 或 得 到 信息 。 在 程序 员 看 来 ， 执 行程 序 所 用 虚拟 机 的 所 有 部 件 (物理 的 和 逮 辑 的 ) 
叫做 资源 。 操 作 系 统 负 责 对 它 的 资源 进行 管理 ， 包 括 所 有 种 类 的 资源 。 资 源 有 以 下 特点 : 

m 当 一 个 进程 /线程 执行 时 ， 必 须 向 操作 系统 请 求 资源 。 

n 一 旦 线程 请 求 资源 ， 在 资源 被 分 配 之 前 暂停 执行 。 

除了 这 些 基 本 的 资源 管理 策略 ， 操 作 系 统 对 处 理 器 和 内 存 资源 的 管理 方式 与 对 其 他 资源 的 管理 方式 不 
一 样 。 进 程 /线程 在 准备 运行 时 ， 隐 含 着 对 处 理 器 和 内 存 资源 的 请 求 。 当 用 户 登 录 计 算 机 时 ， 登 录 进 程 / 线 
程 被 分 配 了 内 存 资源 ， 它 可 以 与 用 户 进行 交互 来 验证 用 户 的 身份 。 一 旦 通过 验证 ， 登 录 进程 /线程 就 请 求 
操作 系统 分 配 内 存 来 运行 shell 程序 ， 用 户 可 以 通过 shell 再 运行 其 他 程序 。 当 用 户 指 示 操 作 系统 运行 用 户 
想 要 运行 的 程序 时 ， 加 载 器 自动 地 为 程序 分 配 内 存 。 

其 他 大 多 数 资源 是 由 程序 显 式 请 求 的 。 最 常见 的 资源 是 文件 。 对 文件 进行 读 写 处 理 之 前 必须 通过 
open () 系统 调用 来 完成 准备 工作 。 如 果 文 件 是 不 可 用 的 ， 进 程 必须 等 待 直到 文件 可 用 ， 也 就 是 等 到 
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open () 系统 调用 返回 。 比 较 有 趣 的 是 ， 如 果 一 个 线程 申请 到 一 个 资源 ， 则 同一 进程 内 所 有 其 他 线程 也 能 
使 用 这 个 资源 。 如 果 进 程 拥 有 某 一 资源 ， 则 同一 进程 内 的 线程 可 以 共享 访问 该 资源 。 当 进程 内 的 所 有 线程 
都 完成 了 对 某 一 资源 的 使 用 时 ， 则 其 中 一 个 线程 必须 将 资源 释放 ， 并 返回 给 操作 系统 。 就 文件 来 说 ， 这 是 
通过 close () 系统 调用 来 完成 的 。 


2.2.1 使 用 文件 


一 个 文件 (file) 是 一 个 命名 的 、 存 储 在 设备 上 的 信息 的 线性 字 节 流 。 你 可 以 打开 一 个 文件 ， 并 将 一 串 
字 节 流 写 人 文件 来 存储 信息 。 类 似 地 ， 你 可 以 打开 文件 ， 并 读 取 文件 中 存储 的 字 节 块 来 访问 存储 的 信息 。 
操作 系统 在 如 磁盘 、 可 擦 写 光盘 、CD-ROM 或 磁带 这 类 存储 设备 上 实现 了 基本 的 文件 抽象 。 它 通过 将 文件 
信息 块 中 的 字 节 映射 到 存储 设备 的 信息 块 中 实现 文件 抽象 。 文 件 区 别 于 其 他 资源 有 两 个 原因 ， 

昌文 件 是 计算 机 中 普遍 的 信息 存储 形式 。 

m 操作 系统 常常 把 文件 作为 一 个 基本 的 元 素 ， 并 在 这 个 基础 上 建立 其 他 资源 抽象 模型 。 





示例 : POSIX 文件 

— POSIX 文件 是 指 一 个 命名 的 顺序 字 节 集 合 ， 也 称 为 一 个 字 节 流 文件 。 对 每 一 个 打开 了 的 文件 ， 
都 有 一 个 文件 指针 与 其 相关 联 。 当 文件 打开 时 ， 文 件 指针 指向 文件 的 开始 位 置 。 当 读 写 了 K 个 字 节 后 ， 
文件 指针 就 偏 移 了 K 个 字 节 的 位 置 。POSIX 接口 定义 了 文件 的 一 些 基本 操作 ( 见 表 2-1)。 任 何 遵循 
POSIX 接口 的 操作 系统 (如 Linux) 都 实现 了 文件 操作 的 功能 。 这 些 文件 操作 函数 的 细节 可 以 在 联机 文档 
上 找到 (因为 它们 经 常 变 化 )。 在 Linux 系统 上 ， 你 可 以 在 联机 文档 上 学 到 更 多 的 有 关 如 何 使 用 系统 调用 
的 知识 。 这 是 通过 man 命令 来 完成 的 。 如 要 读 open () 命令 的 有 关 文档 ， 你 可 以 在 shell EEA “man 
open ， 就 会 在 显示 器 上 显示 open () 的 相关 文档 。(man man 命令 用 于 在 线 阅读 man 命令 自己 的 文档 。) 


表 2-1 POSIX 文件 操作 
命 令 描述 


open () open () 调用 中 要 指定 准备 读 写 文件 的 路 径 名 。 通 过 设置 调用 中 的 参数 可 以 使 程序 员 锁 住 文件 ， 
这 样 只 要 文件 被 打开 ， 就 可 以 独占 地 进行 文件 读 或 者 写 操作 。 当 文件 被 打开 后 ， 有 一 个 系统 指针 
指向 文件 字 节 流 中 的 第 一 个 字 节 (或 者 ， 如 果 文 件 是 空 的 ， 指 向 第 一 个 字 节 即将 要 写 的 位 置 )。 如 
果 调 用 成 功 ， 则 返回 一 个 无 符号 的 整数 描述 文件 ， 这 个 返回 值 用 于 标识 打开 的 文件 





close () close () 调用 关闭 文件 ， 从 而 释放 表示 打开 文件 状态 的 锁 和 其 他 系统 资源 

read () read () 调用 要 指定 一 个 文件 描述 符 〈 是 open O 调用 的 返回 值 )、 一 个 缓冲 区 地 址 和 缓冲 区 长 
度 。 通 常情 况 下 ， 这 个 调用 会 引起 进程 阻塞 直到 读 操作 结束 。 然 而 ， 它 的 语义 可 以 通过 font] () 
调用 改变 ，fcnt1l1 () 就 在 下 面 进行 解释 

write () write () 调用 类 似 于 read O 调用 ， 只 是 它 传送 信息 到 文件 中 

lseek () lseek () 调用 在 宁 节 流 中 显 式 地 移动 读 / 写 指针 ， 因 为 文件 被 看 作 一 种 线性 字 节 流 的 结构 。 移 动 
的 结果 将 影响 随后 的 读 写 操作 

fcntl () fcnt1〈) 〈 它 代表 文件 控制 ) 调用 提供 了 一 种 方法 ， 可 以 发 送 任意 控制 请 求 到 操作 系统 。 例 如 ， 


正常 情况 下 ， 如 果 要 读 一 个 空 文件 ， 文 件 读 操作 会 阻塞 调用 进程 ; 使 用 font] () 调用 ， 可 以 使 原 
本 文件 读 操作 会 阻塞 调用 进程 变 成 在 读 操作 中 不 阻塞 进程 ， 控 制 马 上 返回 给 调用 者 


在 图 2-4 中 是 一 个 完整 的 C 程序 ， 说 明了 如 何 通过 POSIX 接口 提供 的 文件 操作 函数 ， 将 一 个 文件 中 的 

所 有 字 节 拷贝 到 另 一 文件 中 去 。 执 行 这 个 程序 的 进程 ， 会 把 文件 in_test 中 的 内 容 逐 个 字符 复制 到 文件 

out _ test 中 。 这 个 程序 会 以 读 方式 打开 一 个 输入 文件 ， 以 写 方式 打开 一 个 输出 文件 ， 然 后 将 输入 文件 中 
的 每 个 字 节 拷贝 到 输出 文件 中 。 . 

— |B 





a 
示例 : Windows 文件 
Windows 系统 中 同样 定义 文件 为 一 种 字 节 流 结构 。 对 每 一 个 打开 了 的 文件 ， 都 有 一 个 64 位 文件 指针 
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#include <stdio.h> 

#include <fcntl.h> 

int main() { 
int inFile, outFile; 
char *inFileName = “in_test”; 
char *outFileName = “out_test”; 
int len; 
char c; 


inFile = open(inFileName, O_RDONLY); 
outFile = open(outFileName, O WRONLY); 

/* Loop through the input file */ 
while((len = read(inFile, &c, 1)) > 0) 
write(outFile, &c, 1); 

/* close files and quit */ 
close(inFile); 
close(outFile); 

} 











图 2-4 一 个 Linux 文件 操作 程序 
注 : 上 面 的 程序 打开 两 个 文件 ， 并 将 一 个 文件 中 的 内 容 逐 字 节 地 拷贝 到 另 一 文件 中 去 。 


与 其 相关 联 。 当 文件 打开 时 ， 文 件 指针 指向 文件 的 开始 位 置 。 当 读 写 了 K 个 字 节 后 ， 文 件 指 针 就 偏 移 了 
K 个 字 节 的 位 置 。 

当 一 个 程序 打开 文件 时 ， 操 作 系 统 内 部 建立 了 数据 结构 来 跟踪 对 文件 的 操作 (如 存储 了 当前 文件 指针 
位 置 等 信息 )。 系 统 调用 会 返回 一 个 类 型 为 HANDLE 的 句柄 来 标识 文件 ，HANDLE 句柄 指向 操作 系统 内 
部 的 数据 结构 。 在 Windows 中 也 有 许多 文件 命令 ， 表 2-2 只 描述 了 基本 的 命令 (与 表 2-1 中 的 POSIX 集 相 
似 )。 图 2-5 是 一 个 完整 的 拷贝 文件 的 例子 〈 逐 块 拷贝 而 不 是 逐 字 节 地 拷贝 ) ， 它 将 名 为 in _ test 的 文件 内 
容 拷 贝 到 名 为 out _ test 的 文件 中 去 。 

表 2-2 Windows 基本 文件 命令 
命令 TE: 


CreateFile () CreateFile () (或 OpenFile ()) 调用 用 于 在 操作 系统 中 创建 一 个 打开 文件 对 象 ， 为 读 写 该 文 
件 作 准 备 ， 并 初始 化 系统 数据 结构 。 当 文件 打开 后 ， 一 个 系统 指针 指向 文件 字 节 流 中 第 一 个 
字 节 的 地 址 〈 如 果 是 空 文件 ， 指 向 第 一 个 字 节 将 被 写 的 位 置 ) 


CloseHandle () CloseHandle () 调用 关闭 文件 ， 从 而 关闭 表示 打开 文件 状态 的 系统 资源 
ReadFile () ReadFile () 调用 从 打开 的 文件 中 读 取信 息 块 ， 并 且 向 前 移动 文件 指针 
WriteFile () WriteFile () 调用 向 打开 的 文件 中 写 人 信息 块 ， 并 且 向 前 移动 文件 指针 

SetFilePointer () SetFilePointer () 移动 文件 指针 到 一 个 新 的 位 置 















#include <windows.h> 
include <stdio.h> 
#define BUFFER_LEN ... // # of bytes to read/write 
/* The producer process reads information from the file name 
in_test then writes it to the file named out_test. 
*/ 
int main(int argc, char *argv[}) { 
// Local variables 
char buffer[BUFFER_LEN+1]; 
// CreateFile parameters — 
DWORD dwShareMode = 0; // share mode 
LPSECURITY_ATTRIBUTES lpFileSecurityAttributes = NULL; 











图 2-5 一 个 Windows 文件 操作 程序 
注 ， 上 面 的 程序 以 逐 块 的 方式 将 一 个 文件 的 内 容 拷贝 到 另 一 个 文件 。 
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// pointer to security attributes 
HANDLE hTemplateFile = NULL; 
// handle to file with attributes to copy 
// ReadFile parameters 
HANDLE sourceFile; // Source of pipeline 
DWORD numberOfBytesRead; // number of bytes read 
LPOVERLAPPED lpOverlapped = NULL; // Not used here 
// WriteFile parameters 
HANDLE sinkFile; // Source of pipeline 
DWORD numberOfBytesWritten; // # bytes written 
// Open the source file 
sourceFile = CreateFile ( 
“in_test”, 
GENERIC_READ, 
dwShareMode, 
lpFileSecurityAttributes, 
OPEN_ALWAYS, 




















FILE_ATTRIBUTE_READONLY, 、 
hTemplateFile 

) 

if(sourceFile == INVALID HANDLE VALUE) { 






fprintf(stderr, “File open operation failed\n”); 
ExitProcess(1); 

} 

// Open the sink file 

sinkFile = CreateFile ( 
“out test”, 
GENERIC_WRITE, 
dwShareMode, 
lpSecurityAttributes, 
CREATE_ALWAYS, 
FILE_ATTRIBUTE_NORMAL, 
hTemplateFile 

if(sinkFile == INVALID HANDLE VALUE) { 
fprintf(stderr, “File open operation failed\n"); 
ExitProcess(1); 

} 

// Main loop to copy the file 

while 

( 
ReadFile( 

sourceFile, buffer, 
BUFFER_LEN, &numberOfBytesRead, 


lpOver lapped 


























) 
&& 
numberOfBytesRead > 0 
Mf 
WriteFile(sinkFile, buffer, BUFFER_LEN, 
S&numberOfBytesWritten, lpOverlapped); 







} 
// Terminating. Close the sink and source files 
CloseHandle(sourceFile); 
CloseHandle(sinkFile); 
ExitProcess(0); 








图 2-5 (#8) 





2.2.2 使 用 其 他 资源 
HR (resource) 是 任意 的 虚拟 机 部 件 (包括 文 件 )， 一 个 程序 必须 明确 地 分 配 到 了 所 需 资源 才能 执行 。 
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当 一 个 进程 /线程 请 求 的 资源 不 可 用 时 ， 一 般 情 况 下 线程 就 不 能 执行 了 ， 往 往 被 挂 起 ， 直 到 请 求 的 资源 变 
得 可 用 。 

每 个 操作 系统 除了 文件 访问 外 ,还 提供 对 很 多 资源 的 访问 ,包括 处 理 器 、 存 储 器 、 键 盘 ， 以 及 显示 
器 。 如 果 能 做 到 对 所 有 资源 的 接口 都 是 一 样 的 ， 与 不 同类 型 资源 接口 不 同 的 情况 相 比 ， 程 序 员 就 会 更 容易 
地 学 会 如 何 使 用 资源 。 | 

E UNIX 中 ,文件 抽象 也 用 于 管道 和 设备 。 关 于 设备 ， 如 键盘 和 显示 器 ， 将 在 第 5 章 详细 描述 。 现 在 
完全 可 以 说 通过 与 文件 操作 相同 的 open (), close (), read (), write (), seek () 和 fcntl () 命令 来 控 
制 驱动 设备 ， 读 写 操作 也 是 基于 字 节 流 的 ， 因 而 一 个 设备 的 读 操 作 很 像 文件 的 读 操作 。 管 道 是 一 种 抽象 资 
源 ， 用 于 两 个 不 同 的 进程 间 通 信 。 管 道 的 内 容 将 在 第 9 章 描 述 。 


2.3 进程 和 线程 


计算 是 一 个 进程 、 至 少 一 个 〈 隐 含 或 显 式 ) 线程 及 一 组 资源 集合 的 组 合 。 进 程 由 以 下 几 部 分 组 成 ( 见 
图 2-2): 

E 可 执行 的 二 进 制程 序 (或 目标 代码 )。 

量程 序 执行 需要 的 数据 〈 从 一 个 文件 中 或 者 与 用 户 交互 的 过 程 中 获得 )。 

B 程序 执行 请 求 的 资源 (例如 ， 包 含 必需 信息 的 文件 )。 

进程 是 一 个 可 以 实现 计算 的 虚拟 机 框架 ， 执 行 的 活跃 元 素 由 执行 引擎 提供 。 在 图 2-2 表示 的 单线 程 计 
算 中 ， 在 进程 中 只 有 一 个 执行 引擎 。 传 统 操作 系统 (如 早期 的 UNIX 系统 ) 仅 允许 进程 中 有 一 个 执行 引 
擎 。 我 们 称 这 种 类 型 的 进程 /线程 组 合 为 经 典 进程 (classic process)。 在 现代 操作 系统 如 Windows 中 ， 进 程 
可 以 包含 多 个 执行 引擎 〈 见 图 2-6)。 每 个 执行 引擎 称 作 线程 (RARER (lightweight process))， 我 们 称 
这 种 类 型 的 进程 /线程 组 合 为 现代 进程 。 无 论 在 哪 一 种 情况 下 ， 线 程 由 以 下 几 部 分 组 成 ， 

u 线程 数据 ， 为 线程 所 私有 ， 它 通常 分 配 在 特定 的 线程 栈 上 ， 每 个 线程 有 自己 私有 的 数据 空间 。 

n 线程 状态 ， 也 就 是 保持 线程 所 有 属性 的 操作 系统 数据 结构 。 例 如 ， 状 态 包括 了 线程 将 要 执行 的 下 一 

条 指令 的 地 址 ， 以 及 线程 是 否 在 等 待 资源 而 处 于 阻塞 状态 ， 以 及 它 正在 等 候 哪 一 个 资源 的 信息 等 。 

图 2-6 表示 了 一 个 多 线程 计算 ,其 中 一 个 进 yeaa) 
程 内 有 三 个 不 同 的 线程 ， 这 三 个 线程 使 用 相同 的 
程序 、 全 局 进程 数据 、 文 件 和 其 他 资源 , 但 是 它 
们 都 有 自己 的 局 部 数据 和 状态 。 

尽管 操作 系统 都 有 向 多 线程 计算 模型 发 展 的 
趋势 ， 但 是 有 的 操作 系统 仅 支 持 经 典 进程 模型 。 
在 这 些 情 况 下 ， 没 有 单独 的 线程 概念 ， 执 行 引擎 
媒人 在 进程 当中 。Linux 2.0 版 本 就 是 使 用 经 典 进 
程 模型 的 (2.2 版 本 在 内 核 中 为 线程 提供 了 支 
持 )。 即 使 UNIX 系统 提供 了 内 核 线程 支持 ， 但 它 
通过 传统 的 系统 调用 接口 导出 经 典 的 进程 模型 和 
具有 POSIX 线程 扩展 的 线程 模型 。 

经 典 的 进程 模型 使 用 了 1/4 个 多 世纪 ， 在 20 图 2.6 具有 多 线程 的 进 各 
世纪 90 年 代 后 期 ， 开 始 被 现代 的 进程 模型 所 取 y, 进程 为 线程 定义 了 执行 环境 ， 也 就 是 一 进 制程 序 、 
代 。 经 典 进程 模型 向 新 的 进程 和 线程 模型 发 展 的 数据 和 资源 (包括 文件 ) 的 集合 。 每 个 线程 有 自己 
一 个 动机 是 : 创建 一 个 简单 的 操作 系统 抽象 ， 使 的 栈 和 状态 ， 所 以 ， 线 程 并 发 执行 二 进 制程 序 的 不 
得 有 多 个 对 象 能 够 执行 同一 程序 ， 它 们 使 用 相同 同 部 分 。 
的 文件 和 设备 。 在 20 世纪 90 年 代 ， 程 序 员 想 要 
共享 资源 的 不 同 计算 单元 〈 例 子 见 【Bershad 等 ，1988; Hauser 等 ，1993])。 一 个 管理 共享 文件 的 服务 器 
也 需要 各 自 的 线程 来 为 每 个 客户 提供 服务 。 在 一 个 物理 终端 上 ， 窗 口 系统 也 可 以 使 用 线程 来 实现 虚拟 终端 
会 话 。 想 像 一 下 ， 一 个 物理 显示 器 上 的 窗口 系统 ， 一 个 应 用 有 几 个 线程 ， 每 一 个 线程 对 应 于 显示 器 上 的 一 
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个 窗口 ( 见 图 2.7)。 所 有 的 线程 运行 相同 的 代码 ， 共 享 物理 显示 器 ， 但 是 每 一 个 线程 仅仅 管理 一 个 窗口 。 

在 20 世纪 90 年 代 早期 ， 仅 仅 只 有 几 个 线程 库 ， 如 Mach C 线 
程 包 [Walmer and Thompson，1989]。 这 些 库 是 一 组 API 函数 ， 可 
以 让 程序 员 用 来 创建 和 控制 线程 。 这 些 库 使 用 单个 的 经 典 进程 来 执 
TRE: 对 线程 库 的 调用 实现 了 多 线程 应 用 (包括 了 线程 复 用 ) 的 
假象 。 程 序 员 可 以 充分 利用 这 些 线程 库 ， 即 使 在 这 种 方法 中 也 存在 
几 个 缺陷 (如 在 经 典 进程 中 的 一 个 线程 阻塞 了 ， 则 进程 中 的 所 有 线 
程 都 会 被 阻塞 )。 

现在 ,线程 技术 已 成 为 程序 员 的 一 个 重要 工具 。 进 程 中 的 线程 
共享 程序 、 数 据 、 资 源 ， 然 而 每 个 线程 是 计算 的 一 个 独立 单元 : 操 
作 系 统 能 控制 每 个 线程 的 执行 过 程 。 如 果 进 程 中 的 一 个 线程 阻塞 
了 ， 其 他 的 线程 仍然 能 够 执行 。 


2.3.1 创建 进程 和 线程 .图 2-7 使 用 线程 ， 
‘ TE: 进程 提供 了 处 理 窗口 操作 (如 在 
当 计算 机 启动 时 ， 它 必须 开始 执行 存储 在 存储 器 中 的 指令 。 初 显示 器 上 进行 写 操作 、 移 动 窗 


始 化 进程 (initial process) 将 首先 完成 加 载 引 导 程序 的 任务 (将 在 口 、 改 变 窗口 的 尺寸 ) 的 程序 ， 
4.2 节 中 详细 描述 )， 由 引导 程序 将 操作 系统 载 信 内存， 然后 开始 执 进程 的 资源 包括 物理 显示 器 。 每 
行 操作 系统 。 那 么 随后 的 进程 和 线程 是 如 何 出 现 的 呢 ? 在 考虑 现代 个 线程 都 使 用 同一 程序 来 将 信息 
的 进程 和 线程 之 前 ， 我 们 先 来 看 一 下 具有 经 典 进程 的 操作 系统 是 怎 写 到 显示 器 的 某 一 部 分 上 。 每 个 
么 做 的 。 常 规 的 方法 是 执行 一 个 进程 创建 的 系统 调用 来 创建 一 个 经 线程 的 执行 独立 于 其 他 线程 ， 但 
典 进程 。 经 典 进程 创建 的 语义 直接 来 自 早期 的 进程 抽象 的 工作 。 是 它们 协作 来 实现 交 竹 窗口 。 


2.3.2 FORK ()、JOIN () 和 QUIT (): 历史 的 观点 


1963 £, Conway 引入 了 三 个 操作 系统 函数 ， 分 别 为 FORK ()、JOIN () 和 QUTT () [Conway，1963] 。1996 
年 ，Dennis 和 Van Horne 又 对 它们 进行 了 不 同 的 描述 [Dennis and Van Home，1966]。 这 些 原 语 用 于 创建 和 执 
行 一 个 单线 程 进程 家 族 。 不 像 经 典 的 UNIX 进程 〈 但 非常 像 线 程 )， 用 FORK () 命令 创建 的 进程 执行 原 进程 
的 代码 并 共享 原 进程 的 信息 。 原 来 的 进程 称 为 父 进程 〈 创 建新 进程 的 进程 )。 命 令 的 动作 行为 定义 如 下 ; 

m FORK (label) 创建 子 进程 〈 创 建 进程 称 为 父 进程 )。 子 进程 与 父 进程 在 同一 个 地 址 空间 开始 执行 ， 
它 带 有 一 个 指定 的 标号 (label) ， 父 进程 继续 执行 FORK () 后 的 下 一 条 指令 。 一 旦 子 进程 创建 ， 父 
进程 和 子 进程 共同 存在 ， 而 且 并 发 执行 。 

m OIT () 用 于 进程 终止 它 自己 ， 该 进程 被 结束 ， 它 的 进程 控制 块 被 释放 。 

m JOIN (count) 用 于 将 两 个 或 多 个 进程 合并 成 一 个 单一 的 进程 。 当 一 个 进程 执行 这 个 语句 时 ， 先 执 
行 如 下 的 代码 : 

/* Decrement a shared variable */ 
count = count - 1; 
/* QUIT unless this is the last process */ 
if (count!= 0) QUIT(); 
程序 中 count 是 一 个 共享 变量 ， 可 以 被 所 有 的 进程 所 使 用 ， 但 在 任意 时 刻 只 能 有 一 个 进程 执行 JOIN 
语句 。 一 旦 一 个 进程 开始 执行 JOIN () 系统 调用 ， 其 他 进程 就 不 能 使 用 CPU， 直 到 该 进程 完成 执行 。 


FORK (), JOIN () 和 OUIT () 可 用 于 描述 那些 并 发 计算 ， 它 由 几 个 顺序 执行 进程 合作 完成 ， 进 程 间 
共享 数据 和 程序 。 








e] 
示例 : 使 用 FORK (), JON () #4 QUIT () 
考虑 图 2-8 中 的 程序 段 ， 进 程 A 正在 执行 procA， 将 计算 出 一 些 值 (由 < compute section ML > 中 的 代 
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码 段 计算 出 )， 然 后 更 新 共享 变量 x 的 值 ; 同时 ， 进 程 B 开始 执行 procB。 在 进程 A 完成 更 新 x 操作 前 ， 进 
程 B 不 应 该 执行 语句 retrieve (x); 类 似 地 ， 在 进程 B 完成 更 新 y 操作 前 ， 进 程 A 不 应 该 执行 语句 re- 
trieve (y)。 在 代码 中 ， 尤 其 复杂 的 是 两 个 进程 都 在 循环 执行 ， 一 个 进程 可 能 比 男 一 个 的 循环 速率 快 得 多 。 
这 就 意味 着 经 由 x 和 y 传 递 的 数据 可 能 会 丢失 ; 因为 在 慢 的 进程 读 取 数 值 之 前 ， 快 的 进程 会 进行 覆盖 重 写 。 


procA() { procB() { 
while(TRUE) { while(TRUE) { 
<compute section Al>; retrieve(x); 
update (x); <compute section Bl>; 
<compute section A2>; update(y); 
retrieve(y); <compute section B2>; 
} } 
} } 





图 2-8 进程 合作 
注 : 进程 A 和 进程 也 共享 变量 x My. MERE A 对 变量 x 进行 写 操作 并 对 变量 y 进 行 读 操 作 。 两 个 进程 需要 合作 使 
得 在 A 对 x 进行 写 操作 之 前 ，B 不 能 对 x 进行 读 操作 。B 对 y 进 行 写 操作 之 前 ，A 不 能 对 y 进行 读 操作 。 


进程 创建 /消亡 (create/destroy) 原 语 允 许 两 个 逻辑 进程 A 和 BB 并 发 执行 ， 并 能 协调 它们 的 执行 ， 防 
止 数值 在 读 取 之 前 被 覆盖 重 写 。 为 了 在 整个 执行 过 程 中 强制 某 些 语句 的 执行 次 序 ， 可 以 重 写 该 程序 ， 如 图 
2-9 所 示 。 将 原来 的 两 个 过 程 代码 变 成 一 个 过 程 代码 ， 由 进程 A、B 共享 。 通 过 创建 进程 来 执行 任务 ， 通 
过 进程 消亡 来 进行 同步 。 另 外 ， 由 于 FORK 结构 使 用 了 标号 ， 用 于 指明 新 生成 的 进程 开始 执行 的 位 置 。 一 
条 goto LO 的 语句 引起 控制 转移 到 Lo 标号 语句 执行 。 


LO: countl = 2; 
count2 = 2; 
<compute Al>; 
update (x); 
FORK (12); 
<compute A2>; 

Ll: JOIN(countl); 
retrieve(y); 
JOIN(count2); 
goto LO; 

L2: retrieve(x); 
<compute B1>; 
update (y); 
FORK (L3) 7 
goto Ll; 

L3: <compute B2>; 
JOIN(count2); 
goto LO; 














图 2-9 FORK (), JOIN () 和 QUIT () 举例 
注 : 此 处 的 代码 段 完 成 了 图 2-8 所 示 的 并 发 处 理 任务 ， 这 段 代 码 使 用 两 个 “count” 变 量 来 对 JOIN O 操作 进行 
计数 。 第 一 个 进程 在 LO 处 开始 执行 ， 对 &1 进行 计算 ,然后 更 新 变量 x 的 值 。 创 建 一 个 新 进程 (其 执行 入口 
在 标号 L2 处 )， 然 后 执行 A2 计算， 然后 执行 L1: JOIN (count1) 语句 ， 如 果 是 第 一 次 碰 上 这 个 语句 ， 它 将 
退出 。 如 果 是 第 二 次 ， 它 将 会 读 取 y 值 ， 等 等 。 
E 
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2.3.3 经 典 的 进程 创建 


今天 的 经 典 进 程 模型 是 从 Conway. Dennis 和 Van Home 所 提出 的 思想 上 发 展 起 来 的 。 早 期 的 思想 更 像 
线程 而 不 是 经 典 进程 ， 因 为 所 有 的 进程 共享 相同 的 程序 和 数据 。 到 1970 年 ， 进 程 的 思想 做 了 进一步 的 演 
进 ， 它 具有 了 图 2-2 所 描述 的 思想 。 进 程 除 了 具有 资源 外 ， 它 还 有 自己 的 私有 地 址 空间 ， 或 者 一 组 机 器 部 
件 〈 主 要 是 存储 寻 址 )， 它 可 以 被 执行 引擎 所 引用 。 堆 栈 、 状 态 、 数 据 和 程序 块 也 可 以 通过 地 址 空间 内 的 
地 址 所 引用 。 地 址 空间 是 由 于 存储 保护 机 制 的 需要 而 发 展 起 来 的 : 通过 给 进程 分 配 一 组 地 址 ， 使 得 进程 可 
以 读 / 写 分 配给 它 的 内 存 。 因 此 操作 系统 可 以 阻止 一 个 进程 读 或 写 另 一 个 进程 的 内 存 地 址 空间 。 

当 在 经 典 进程 模型 里 进行 子 进程 的 创建 时 ， 子 进程 被 分 配 了 新 的 地 址 空间 。 在 最 简单 的 POSIX/UNIX 
fork () 系统 调用 机 制 中 ， 子 进程 的 地 址 空间 是 父 进 程 地 址 空间 的 一 份 拷贝 。 这 意味 着 当 一 个 父 进 程 创建 

一 个 子 进程 时 ， 子 进程 复制 父 进 程 地 址 空间 的 所 有 信息 。 子 进程 和 父 进程 执行 相同 的 代码 ， 具 有 相同 的 变 
EZ, 但 是 它们 是 在 不 同 的 地 址 空间 上 执行 的 父 进程 地 址 指 的 是 父 进程 的 地 址 空间 ， 子 进程 的 地 址 指 的 
是 子 进程 的 地 址 空间 )。 


2.3.4 现代 进程 和 线程 的 创建 


在 具有 现代 进程 的 操作 系统 中 ， 有 独立 的 系统 调用 来 创建 进程 和 线程 。 创 建 进程 的 系统 调用 在 操作 系 
统 核心 中 定义 了 一 个 现代 进程 ， 但 没 必 要 定义 所 有 线程 。 子 进程 将 有 自己 的 地 址 空间 、 程 序 、 数 据 、 文 件 
和 其 他 的 资源 。 父 进程 在 创建 子 进 程 时 将 对 这 些 资 源 进行 设置 。 当 然 ， 子 进程 没有 动态 元 素 一 一 即 没有 线 
程 (执行 引擎 )。 在 进程 执行 之 前 ， 在 进程 内 至 少 要 创建 一 个 线程 用 于 程序 执行 。 因 为 这 个 原因 ， 创 建 进 
程 的 系统 调用 常常 创建 一 个 基线 程 (base thread) 来 执行 进程 。 例 如 ，Windows 的 CreateProcess () 系统 
调用 首先 创建 一 个 现代 进程 ， 然 后 为 这 个 进程 创建 一 个 基线 程 。 

在 进程 内 执行 的 线程 可 以 创建 一 个 新 的 现代 进程 ， 这 个 现代 进程 具有 自己 的 地 址 空间 并 可 以 有 多 个 线 
程 。 也 可 以 在 同一 进程 内 创建 子 线程 一 一 与 图 2-6 中 显示 的 例子 相符 合 。 这 可 以 通过 使 用 类 似 Conway 的 
FORK () 系统 调用 的 机 制 来 完成 。 子 线程 在 进程 的 地 址 空间 内 运行 ， 使 用 进程 的 程序 和 数据 资源 。 然 而 ， 它 
有 自己 的 线程 数据 和 状态 。 例 如 ，Windows 的 CreateThread () 系统 调用 可 以 在 进程 内 创建 另 一 个 线程 。 


2.4 并 发 程序 的 编写 


这 一 节 为 使 用 进程 和 线程 提供 了 C 程序 代码 示例 。 经 典 进 程 模型 仍然 在 使 用 (一般 来 说 ， 所 有 的 操作 
系统 都 支持 该 模型 ， 包 括 支持 现代 进程 和 线程 的 操作 系统 )。 
我 们 的 经 典 进 程 例子 来 自 UNIX。 例 子 中 的 代码 可 以 在 大 多 
数 的 当代 UNIX 操作 系统 上 编译 并 执行 ， 包括 基于 线程 的 
Linux 系统 。 


2.4.1 多 单线 程 进程 ， UNIX 模型 


UNIX 进程 的 行为 由 代码 段 、 数 据 段 和 堆栈 段 定 义 。 代 
码 段 (text segment) 包括 了 编译 过 的 二 进 制 指 令 ， 数据 段 
(data segment) 包含 了 静态 变量 #2 (stack segment) 有 
用 来 存储 临时 变量 的 运行 时 栈 。 一 组 源 文 件 (通过 编 诗 与 链 








接 ) 被 翻译 成 一 个 可 执行 的 形式 ， 这 个 可 执行 的 形式 存储 在 
一 个 默认 名 为 a.out 的 文件 中 〈 当 然 ， 程 序 员 也 可 以 明确 地 
对 它 进行 命名 )。 可 执行 文件 中 定义 了 可 执行 程序 的 三 个 段 图 2-10 UNIX 进程 


( 见 图 210)。 在 代码 段 中 ,程序 的 分 支 和 过 程 调用 地 址 所 指 E UNIX 经 典 进程 由 代码 段 ， 数 据 段 和 堆 
向 的 位 置 都 在 代码 段 内 。 如 果 程 序 访问 静态 数据 ， 如 C 语言 naar me eee es 
中 的 静态 变量 ， 地 址 指向 数据 段 。 当 可 执行 文件 加 载 执 行 种 个 同 的 资源 ， 。 执 行 
时 ， 会 创建 和 初始 化 数据 段 ， 为 变量 分 配 空间 并 存储 变量 fea IN Hr, BARAMA 
值 。 堆 栈 段 用 于 为 程序 中 的 动态 数据 分 配 空间 并 存储 数值 ， es 
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比如 C 语言 中 的 自动 变量 ， 当 程序 执行 用 到 它们 时 被 创建 ， 当 超出 作用 域 时 (往往 是 子 程序 返回 时 ) 就 被 
清除 。 在 图 中 ， 我 们 试图 强调 线程 包含 在 进程 定义 中 。 单 线程 的 执行 引擎 是 进程 定义 的 一 部 分 。 

当 进 程 被 创建 时 ， 操 作 系统 创建 了 一 个 称 之 为 进程 描述 表 (process descriptor) 的 数据 结构 ， 用 来 管理 
进程 的 所 有 细节 。 进 程 也 有 一 个 唯一 的 进程 标识 符 (process identifier) ， 简 称 为 PID。 它 是 对 进程 描述 表 数 
据 结构 的 一 个 引用 索引 。 在 UNIX 中 ，PID 实际 上 是 一 个 整数 ， 由 它 可 以 在 进程 描述 表 列表 中 找到 一 个 特 
定 的 进程 描述 表 。 当 一 个 进程 通过 系统 调用 访问 另 一 个 进程 时 ， 它 必须 要 提供 目标 进程 的 PID 值 。 例 如 ， 
UNIX 中 的 ps 命令 可 以 列 出 与 执行 命令 的 用 户 相关 联 的 进程 ， 每 个 进程 的 PID 作为 进程 描述 表 中 的 一 个 
域 出 现 。 在 你 下 次 使 用 UNIX 时 ， 试 一 下 ps -aux 命令 ， 观 察 一 下 系统 中 每 个 进程 的 PID 值 。 

在 UNIX 中 ,创建 一 个 新 进程 的 命令 是 fork () 系统 调用 。 


int fork (); 


当 一 个 〈 父 ) 进程 调用 fork () 时 ， 就 创建 了 一 个 子 进程 ， 子 进程 拥有 父 进程 的 程序 代码 、 数 据 和 堆 
栈 段 的 一 份 拷贝 ， 以 及 对 所 有 打开 的 文件 描述 符 〈 在 内 核 中 ) 的 访问 权 。 当 操作 系统 创建 一 个 新 的 进程 
时 ， 它 需要 创建 一 个 进程 描述 符 和 一 些 其 他 的 内 部 数据 结构 ， 这 些 数据 结构 都 可 以 通过 子 进程 的 PID 值 进 
行 引用 。fork O 函数 返回 子 进程 的 PID 值 给 父 进程 ， 返 回 0 值 给 子 进 程 。 父 进程 然后 使 用 PID 值 作为 对 
子 进程 的 引用 (可 用 于 接 下 来 与 操作 系统 的 交互 )。 

子 进程 和 父 进 程 各 自在 它们 的 地 址 空间 中 并 发 执行 。 这 意味 着 当 子 进程 被 创建 时 ， 即 使 子 进程 和 父 进 
程 要 访问 相同 的 信息 ， 它 们 实质 上 是 引用 各 自 的 信息 拷贝 。 子 进程 和 父 进程 的 地 址 空间 是 相互 独立 的 。 特 
别 要 注意 的 是 : 子 进程 和 父 进程 不 能 通过 引用 存储 在 相同 地 址 上 的 变量 来 进行 通信 。 在 UNIX 中 ， 两 个 进 
程 唯 盖 可 以 共享 引用 的 是 打开 的 文件 (UNIX 利用 这 种 方式 来 作为 进程 间 通 信 机 制 ， 这 将 在 第 9 章 解释 )。 

在 子 进程 被 创建 后 ， 子 进程 和 父 进程 都 可 以 使 用 处 理 器 。 也 就 是 说 ， 它 们 有 各 自 的 虚拟 机 。 在 单 处 理 
器 的 计算 机 上 ， 某 一 时 刻 只 允许 一 个 进程 使 用 处 理 器 。 在 fork () 调用 完成 后 ， 程 序 员 不 能 确定 处 理 器 将 
. 运行 子 进程 还 是 父 进程 ， 操 作 系统 也 可 能 选择 其 他 的 进程 来 运行 。 

在 UNIX 中 ， 子 进程 和 父 进程 在 相同 的 执行 点 上 开始 执行 。 也 就 是 说 ， 在 如 下 代码 段 中 : 

theChild = fork (); 

printf (“My PID is %d\ n“, theChild); 


父 进程 执行 fork O 调用 ， 然 后 执行 printf () 语句 。 于 进程 执行 的 第 一 个 语句 也 是 printf O 语句 。 正 
如 在 上 面 说 的 ， 在 父 进 程 中 theChild 的 值 是 新 进程 的 PID 值 。 但 存 子 进程 中 ，theChild 的 值 是 0。 父 进程 
将 打印 一 个 非 0 值 ， 而 子 进程 将 打印 出 0。 
假如 程序 员 想 让 子 进程 执行 与 父 进 程 不 同 的 代码 ， 则 可 以 通过 使 用 条 件 测试 来 完成 : 
theChild = fork(); 
if(theChild == 0) { 
/* The child will execute here */ 
codeForThecChild(...}; 
exit(0); 
} 


/* The parent will execute here */ 


在 代码 段 中 ， 父 进程 和 子 进程 都 对 变量 childPID 的 值 进程 测试 : 父 进程 的 childPID 为 一 个 非 0 值 ， 
而 子 进程 的 childPID 为 0， 且 它们 在 不 同 的 地 址 空间 。 子 进程 将 调用 codeForTheChild () 过 程 ， 然 而 父 进 
程 将 执行 不 同 的 代码 〈 在 上 述 情况 下 ， 它 将 从 不 会 被 子 进程 所 执行 )。 

UNIX 中 提供 了 系统 调用 execve ()， 它 可 以 动态 调用 装载 器 来 重 定义 一 个 进程 的 程序 、 数 据 和 堆栈 
Ko UNIX 系统 也 提供 了 几 种 形式 的 execve O 系统 调用 。 下 面 是 其 中 的 一 种 : 


int execve (char * path, char * argv [], char * envp []); 


BONAR BEI FH SETS Fe PAE SCE PRR ERRA RSE, A A 
序 、 数 据 和 堆栈 区 。execve () 系统 调用 执行 结束 后 ， 操 作 系统 不 再 从 execve () 调用 返回 了 。 在 新 的 程 
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序 加 载 后 ， 栈 被 清除 ， 变 量 被 初始 化 ， 进 程 在 新 的 程序 的 main 人 口 点 开始 执行 。 新 程序 接受 从 原来 程序 
传递 来 的 argv 中 的 参数 列表 ， 并 且 新 进程 使 用 envp 中 的 一 组 新 的 环境 变量 。 

UNIX 也 提供 了 一 个 wit () 系统 调用 (和 一 个 经 常 使 用 的 变种 waitpid ())， 使 用 它 父 进程 可 以 检 
查 什么 时 候 它 的 子 进程 结束 。 要 结束 的 子 进程 状态 的 细节 ， 要 么 通过 wait O 调用 中 的 一 个 参数 值 返回 给 
父 进程 ， 要 么 忽略 。waitpid () 允许 父 进 程 等 待 一 个 特定 的 子 进程 〈 基 于 它 的 PID) 结束 , 而 wait () 调 
用 命令 并 没有 指定 子 进程 。 当 子 进程 结束 时 ， 它 的 资源 (包括 操作 系统 进程 描述 符 ) 会 被 释放 。 操 作 系统 
发 信和 号 通知 父 进程 ， 子 进程 已 死 ， 但 要 直到 父 进程 收 到 信号 ， 才 会 释放 它 的 进程 描述 表 。 父 进程 执行 
wait () 调用 来 确认 子 进程 的 结束 ， 使 得 操作 系统 释放 相关 的 数据 结构 。 





示例 : 在 UNIX 系统 中 执行 命令 

fork () 、execve () 和 wait () 系统 调用 用 在 UNIX 系统 中 的 用 来 执行 命令 的 外 壳 (shell) 程序 中 
(也 称 命令 行 解释 器 )。 外 过 程序 允许 用 户 与 操作 系统 进行 交互 ， 用 户 可 以 发 命令 给 操作 系统 ， 操 作 系 统 可 
以 对 用 户 进 行 响应 。 

外 壳 程 序 可 以 执行 提交 给 它 的 任何 命令 ， 即 使 实现 这 个 命令 的 程序 缺陷 非常 多 。 如 果 进 程 在 执行 有 致 
命 错误 的 程序 ， 那 么 操作 系统 将 终止 进程 的 执行 。 如 果 是 外 这 程序 来 直接 调用 命令 代码 的 话 ， 且 命令 代码 
包含 有 一 个 致命 的 错误 ， 那么 外 过 程序 将 终止 。 在 用 户 界面 中 ， 如 果 你 输入 不 适当 的 命令 ， 那 么 外 过 程序 
会 突然 终止 。 可 以 让 外 壳 创 建 一 个 子 进程 来 执行 命令 以 避免 这 种 情况 。 如 果 命 令 执行 失败 的 话 ， 操 作 系 统 
将 终止 子 进程 但 是 外 壳 进 程 将 持续 执行 。 如 果 输 入 了 非法 命令 ， 外 壳 程 序 会 报告 命令 执行 失败 信息 ， 并 可 
以 继续 接受 新 的 命令 。 

下 一 步 ， 我 们 将 设计 一 个 称 为 launch 的 程序 ， 它 类 似 于 外 壳 程 序 。 你 可 以 使 用 这 些 代码 来 作为 本 章 
UNIX 外 壳 实 验 练习 的 解决 方案 的 一 部 分 。 这 个 程序 从 一 个 文件 中 读 和 人 一 串 命令 ， 然 后 执行 每 个 命令 ， 就 
像 外 和 壳 程 序 执行 它 一 样 。 文 件 中 的 每 个 命令 行 和 你 键入 外 壳 程 序 中 的 命令 相同 :如 : 

ls ` 
列 出 当前 目录 下 的 所 有 文件 ， 如 果 还 要 显示 文件 的 属性 〈 如 许可 权 、 拥 有 者 、 文 件 最 近 被 访问 的 时 间 )， 
可 以 键入 : 

ls -1 

命令 行 的 语法 是 简单 的 ， 当 launch 程序 看 见 如 下 命令 行 : 

a.out foo 100 
将 对 它 进行 语法 分 析 ， 将 命令 行 中 的 每 个 单词 放 人 字符 串 ， 并 将 它 保存 在 字符 串 数 组 char * argv [] 中。 
命令 行 中 的 单词 解释 如 下 : 

argv [0] 

argv [1] 

argv [2] =“100” 

根据 以 前 程序 设计 课 上 编写 C 程序 的 经 验 ， 你 可 能 对 argv 名 比较 熟悉 了 。 例 如 ， 当 你 写 C 程序 并 想 
要 shell 传递 参数 给 你 的 程序 时 ， 可 以 在 main 程序 中 声明 函数 原型 如 下 : 

int main (int argc， char * argv []); 

在 shell 中 ， 当 用 户 输 入 以 下 形式 的 命令 行 : 


a.out foo 100 


它 意味 着 main 程序 中 的 arge 初始 化 为 3 (因为 命令 行 中 有 3 个 单词 ) Ti argv [] 数组 被 初始 化 为 如 上 所 
显示 的 。a.out 主 程序 将 解释 第 一 个 参数 (argv [1]) 为 一 个 文件 名 ， 第 二 个 参数 (argv [2]) 为 一 个 整 
型 记录 计数 。 当 shell 传递 参数 给 a.out 主 程序 时 ， 它 将 argv [1] 和 argv [2] 作为 字符 串 来 对 待 。 

我 们 的 命令 launch 程序 需要 从 文件 中 读 取 命令 行 ， 并 对 它们 进行 解释 ， 使 得 argc 和 argv [] WAH 
对 应 的 值 。 这 里 是 一 个 可 以 用 来 保存 这 些 参 数 的 C 语言 数据 结构 : 


“aout” 


“foo” 
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struct command t { 
char *name; 
int argc; 
char *argv[MAX ARGS]; 
}; 
我 们 使 用 char * name 域 来 保存 包含 二 进 制程 序 的 文件 名 。 当 然 ，char * name 也 是 多 余 的 ， 因 为 它 和 
argv [0] 字符 串 〈 命 令 行 的 第 一 个 单词 ) 相同 。 下 面 是 一 个 解释 命令 行 的 函数 ， 在 struct comand _ t * 
cmd 参数 中 返回 结果 : 


#include <string.h> 


/* Determine command name and construct the parameter list. 


* This function will build argv[] and set the argc value. 
* argc is the number of “tokens” or words on the command line 
* argv[} is an array of strings (pointers to char *). The last 
* element in argv[] must be NULL. As we scan the command line 
* from the left, the first token goes in argv[0], the second in 
* argv[i], and so on. Each time we add a token to argv[], 
* we increment argc. 
* 
int parseCommand(char *cLine, struct command_t *cmd) { 
int argc}; 


char **clPtr; 
/* Initialization */ 
clPtr = &cLine; /* cLine is the command line */ 
argc = 0; 
emd->argv[arge} = (char *) malloc (MAX ARG LEN); 
/* Fill argv[] */ 
while((cmd->argv[argc] = strsep(clPtr, WHITESPACE)) != NULL) { 
emd->argv[++arge] = (char *) malloc(MAX_ARG LEN); 
} 


/* Set the command name and argc */ 
emd->arge = arge-1; 
emd->name = (char *) malloc(sizeof(cmd->argv[0])); 
strcpy (cmd->name, cmd->argv[0]); 
return 1; 


} 


下 一 步 ， 我 们 将 编写 执行 由 argv [0] 参数 说 明 的 二 进 制 目标 程序 的 主 程序 。 为 了 实现 这 个 功能 ， 外 
TRE (KHE) 将 创建 一 个 子 进程 ， 使 用 execve () 系统 调用 的 一 种 形式 来 加 载 和 执行 命名 的 可 执行 文 
件 。 父 进程 让 子 进程 运行 可 执行 文件 ， 这 样 ， 即 使 可 执行 文件 包含 了 一 个 致命 错误 破坏 了 执行 它 的 进程 ， 
父 进程 还 可 以 继续 执行 其 他 的 命令 。 

我 们 的 程序 需要 知道 文件 名 字 ， 如 launch_ set， 该 文件 包含 了 一 系列 的 命令 。 例 如 ，launch_ set 可 
以 包括 下 面 的 命令 ; 


date 

gcc main.c 

mv a.out foobar 
cd 

ls -1 


如 果 launch_ set 文件 名 被 传递 给 我 们 的 程序 ， 它 会 使 用 5 个 不 同 的 子 进程 来 执行 5 个 命令 。 假 定 我 
们 将 文件 名 作为 shell 参数 来 传递 给 launch 程序 ， 意 味 着 launch 程序 将 如 下 执行 : 


launch launch _ set 


下 面 是 用 我 们 的 程序 解决 问题 的 计划 : 

1) 读 命令 行 参数 (如 例子 中 的 launch_ set), 
2) 打开 包含 一 组 命令 的 文件 。 

3) 对 每 个 命令 : 
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a. 从 文件 中 读 取 命令 。 、 
b. 对 命令 进行 解释 使 得 我 们 知道 程序 的 名 字 和 它 的 参数 。 
c. 创建 一 个 新 的 进程 来 执行 命令 。 
4) 在 所 有 的 命令 完成 之 后 终止 程序 。- 
下 面 是 一 种 解决 办 法 ， 它 使 用 了 parseCommand () 函数 。 在 程序 中 , 我们 使 用 了 execve () 的 一 个 变 
种 ， 叫 做 int execvp (char * file, char xx argv) (可 以 用 man 命令 查看 execvp () 的 细节 )。 


#include <stdio.h> 
#include <unistd.h> 


#define MAX ARGS 64 
#define MAX ARG LEN 16 
#define MAX_LINE_LEN 80 


#define WHITESPACE “ .,\t\n" 


struct command t { 
char *name; 
int argc; 
char *argv[MAX_ARGS]; 
} 


/* Function prototypes */ 
int parseCommand(char *, struct command 七 *); 


int main(int argc, char *argv[]) { 
int i; 
int pid, numChildren; 
int status; 
FILE *fid; 
char emdLine[{MAX_LINE LEN]; 
struct command_t command; 


/* Read the command line parameters */ 
if(arge != 2) { 
fprintf(stderr, “Usage: launch <launch_set_filename>\n"); 
exit(0); 
} 


/* Open a file that contains a set of commands */ 
fid = fopen(argv[1], “r"); 


/* Process each command in the launch file */ 
numChildren = 0; 


while (fgets(cmdLine, MAX_LINE_LEN, fid) != NULL) { 
parseCommand(cmdLine, &command); 
command.argv[command.arge] = NULL; 

/* Create a child process to execute the command */ 
if((pid = fork()) == 0) { ‘ 


/* Child executing command */ 
execvp(command.name, command.argv); 
} 
/* Parent continuing to the next command in the file */ 
numChildrent+; 
} 
printf(“\n\nlaunch: Launched %d commands\n”, numChildren); 


/* Terminate after all children have terminated */ 
for(i = 0; i < numChildren; i++) { 
wait (&status); 
/* Should free dynamic storage in command data structure */ 
} 
printf(“\n\nlaunch: Terminating successfully\n"”); 
return 0; 
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在 主 程序 中 ， 首 先 对 参数 进行 检查 ， 确 保 launch set 文件 名 已 通过 shell 传递 给 了 主 程序 (使 用 
argv [1])。 然 后 它 打开 这 个 文件 ， 使 得 主 循环 能 对 文件 中 的 命令 进行 处 理 。 ， 

对 文件 中 的 每 一 个 命令 执行 一 次 while 循环 ， 它 通过 stdio 库 函 数 fgets () 来 得 到 命令 行 。 下 一 步 ， 
它 对 命令 行进 行 解释 ， 定 义 argv [] 数组 和 包含 命令 可 执行 代码 的 文件 名 。execvp () 命令 要 求 argv [] 
数组 用 NULL 指针 来 标志 结束 。 下 面 的 几 行 用 fork () 创建 子 进 程 ， 并 在 子 进 程 中 用 execvp () 调用 来 执 
行 命令 。 当 子 进 程 在 执行 命令 时 ， 父 进程 累计 被 创建 子 进程 的 数目 ， 然 后 再 回 到 while 的 顶部 来 执行 新 的 
命令 。 如 果 launch_set 中 包含 了 5 个 命令 ， 那 么 父 进程 和 5 个 子 进 程 并 发 地 执行 。 
E 





2.4.2 多 进程 和 进程 中 的 多 线程 : Windows 模型 


在 Windows 操作 系统 中 ， 一 个 进程 可 以 通过 使 用 Win32 API 中 的 CreateProcess () 函数 来 创建 男 一 
个 进程 。 当 一 个 进程 被 创建 时 ， 操 作 系 统 要 执行 大 量 的 工作 一 一 创建 一 个 新 的 地 址 空间 、 为 进程 分 配 资源 
以 及 创建 一 个 基线 程 。 和 UNIX 一 样 的 是 ， 当 创建 一 个 新 进程 时 ， 父 进程 将 继续 使 用 旧地 址 空间 ; 和 
UNIX 不 同 的 是 ， 子 进程 将 在 新 的 地 址 空间 内 运行 ， 并 且 它 还 有 一 个 基线 程 ， 通 常 运行 一 个 与 父 进程 不 同 
的 新 的 程序 。 这 意味 着 创建 新 的 进程 时 可 以 有 许多 不 同 的 选择 ， 所 以 CreateProcess () 函数 有 许多 参数 ， 
其 中 有 的 参数 相当 复杂 。 而 UNIX 系统 的 fork O 调用 没有 参数 ， 在 UNIX 中 子 进程 的 行为 完全 是 由 父 进 
程 行为 及 默认 定义 的 行为 决定 的 。 在 Windows 操作 系统 中 ， 当 成 功 创建 新 进程 后 ， 会 返回 一 个 子 进程 的 句 
柄 和 子 进 程 中 基线 程 的 句柄 。 

下 面 是 CreateProcess () 的 函数 原型 的 拷贝 (摘自 Win32 API 参 考 手册 )。 在 函数 原型 中 没有 使 用 任 
何 标准 的 C 语言 数据 类 型 ， 所 用 的 数据 类 型 是 在 Windows.h 头 文件 中 定义 的 ， 很 多 只 是 标准 的 C 语言 数据 
类 型 的 别名 而 已 。 这 种 间接 地 使 用 名 字 类 型 产生 了 一 种 抽象 接口 ， 操 作 系统 实现 时 能 够 使 用 它们 所 希望 的 
名 字 。 


BOOL CreateProcess ( 
LPCTSTR lpApplicationName, 
// pointer to name of executable module 
LPTSTR lpCommandLine, 
// pointer to command line string 
LPSECURITY_ATTRIBUTES lpProcessAttributes, 
// pointer to process security attributes 
LPSECURITY_ATTRIBUTES lpThreadAttributes, 
// pointer to thread security attributes 
BOOL bInheritHandles, // handle inheritance flag 
DWORD dwCreationFlags, // creation flags 
LPVOID IpEnvironment, 
// pointer to new environment block 
LPCTSTR lpCurrentDirectory, 
// pointer to current directory name 
LPSTARTUPINFO lpStartupInfo, 
// pointer to STARTUPINFO 
LPPROCESS INFORMATION lpProcessInformation 
// pointer to PROCESS INFORMATION 
) 


CreateProcess () 所 提供 的 10 个 参数 给 程序 员 的 设计 带 来 了 很 大 的 灵活 性 ， 但 在 简单 的 情形 下 ， 很 
多 参数 都 可 以 使 用 默认 值 。 例 如 ， 下 面 的 代码 显示 了 如 何 使 用 Windows NT/2000/XP 中 的 Win32 API 来 创 
建 一 个 子 进程 ， 该 进程 只 具有 一 个 单线 程 : 


#include <windows .h> 
#include <stdio.h> 
#include <string.h> 


STARTUPINFO startinfo; 
PROCESS_INFORMATION processInfo; 
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strepy(lpCommandLine, 
“C: \\WINNT\\SYSTEM32\\NOTEPAD.EXE temp.txt”); 
ZeroMemory(&startInfo, sizeof(startInfo) ); 
startInfo.cb = sizeof(startInfo); 
if(!CreateProcess(NULL, lpCommandLine, NULL, NULL, FALSE, 
HIGH PRIORITY CLASS CREATE NEW CONSOLE, 
NULL, NULL, &StartInfo, &processInfo)) { 
fprintf(stderr, “CreateProcess failed on error %d\n", 
GetLastError()); 
ExitProcess(1); 
yi 


CloseHandle(&processinfo.hThread); 
CloseHandle(&processinfo.hProcess); 


你 也 可 以 在 当前 进程 中 使 用 Win32 API 函数 CreateThread () 创建 更 多 的 线程 。 每 个 线程 表示 一 个 独 
立 的 计算 ,它们 都 在 相同 的 进程 地 址 空间 内 运行 ， 共 用 相间 的 数据 。 创 建 一 个 线程 需要 程序 员 提 供 有 关 线 
程 执行 环境 的 信息 。 

讨论 线程 创建 过 程 的 最 好 方式 是 首先 看 看 函数 原型 (本 章 末 的 线程 实验 练习 中 有 更 多 线程 创建 的 讨 
论 ， 特 别 是 在 C 环境 下 的 ) 

HANDLE CreateThread( 

LPSECURITY ATTRIBUTES lpThreadAttributes, 

// pointer to thread security attributes 
DWORD dwStackSize, 

// initial thread stack size, in bytes 
LPTHREAD_START_ROUTINE lpStartAddress, 

// pointer to thread function 
LPVOID lpParameter, // argument for new thread 
DWORD dwCreationFlags, // creation flags 


LPDWORD lpThreadId 
// pointer to returned thread identifier 


3 

和 CreateProcess () —FF, RCI RMHE TRIG. lpThreadAttributes 用 来 控制 新 线程 的 资 
源 访问 ，dwStackSize 用 来 为 线程 栈 分 配 空间 一 一 0 值 表示 子 线程 和 父 线程 的 栈 大 小 相同 。1pStartaddress 
是 进程 地 址 空间 中 新 线程 的 入 口 地 址 ， 入 口 点 被 定义 成 函数 原型 如 下 : 

DWORD WINAPT childFunc (LPVOID lpParam); | 

lpParam 参数 是 void* 指 针 类 型 ， 当 线程 启动 时 被 传递 给 线程 。dwCreationFlags 参数 默认 值 表 示 线 程 
可 以 立即 开始 执行 (而 不 是 被 挂 起 )。1lpThreadId 返回 子 线程 的 线程 标识 符 。 采 用 如 下 调用 ， 一 个 线程 可 
以 创建 其 兄弟 线程 并 且 它 们 都 在 相同 的 进程 内 运行 : 

CreateThread (NULL, 0, childFunc, (LPVOID) NULL, o, &childID); 

注意 : 在 结合 C 库 使 用 CreateThread () 函数 以 前 ， 你 需要 阅读 本 章 末 Windows 实验 练习 的 背景 
知识 。 





示例 : 创建 Windows 进程 

命令 行 解释 器 in V Windows 的 cmd.exe 或 UNIX 的 shell) 为 用 户 使 用 操作 系统 提供 了 文本 化 的 界面 。 
用 户 键入 文件 名 (包含 了 可 执行 程序 ) 及 执行 程序 所 需 的 一 组 参数 ， 由 命令 行 解释 器 来 运行 程序 。 这 和 传 
递 给 CreateProcess () 函数 的 1pCommandLine 参数 信息 相同 。 命 令 行 解释 器 对 这 行 命令 进行 解释 来 得 到 文 
件 名 ， 然 后 创建 另 一 个 进程 或 线程 来 运行 它 。 在 cmd. exe 中 ， 命 令 行 进程 创建 了 新 进程 来 加 载 和 执行 存储 
在 文件 中 的 程序 。# 全 条 角 入 要 等 到 命令 执行 完 之 后 才 会 给 用 户 返 加 命令 担 示 符 。 

命令 行 解释 器 应 能 执行 给 它 的 任何 命令 ， 即 使 实现 命令 的 程序 缺陷 很 多 。 如 果实 现 命令 进程 执行 的 程 
序 中 包含 了 一 个 致命 错误 ， 操作 系统 会 确保 终止 进程 。 假定 命令 行 解 释 器 进程 直接 调用 命令 代码 的 话 ， 如 





RRALBEME BB 41 





果 命 令 代 码 包 含 了 致命 的 错误 ， 那 么 命令 行 解释 器 进程 将 会 被 终止 。 也 就 是 说 ， 在 用 户 界面 中 ， 如 果 输 和 
不 适当 的 命令 ， 那 么 命令 行 解释 器 会 突然 终止 。 可 以 让 命令 行 解释 器 创建 一 个 子 线程 来 执行 命令 来 尽量 避 
免 这 种 情况 。 如 果 热 行 命令 失败 了 ， 操 作 系统 会 终止 子 线程 的 执行 ， 但 命令 行 解释 器 进程 会 继续 执行 。 现 
在 ,如 果 输 入 了 非法 命令 ， 命 令 行 解释 器 会 报告 命令 执行 失败 信息 ， 并 可 以 继续 接收 新 的 命令 。 

下 一 步 ， 我们 将 设计 一 个 叫做 launch 的 程序 ， 它 类 似 于 一 个 命令 行 解释 器 程序 。 它 从 文件 中 读 取 一 
串 命令 ， 然 后 执行 这 些 命令 ， 这 和 命令 行 解释 器 执行 命令 类 似 。 文 件 中 的 命令 和 你 键 人 到 shell 中 的 命令 
是 相同 的 ， 如 : 

dir 
列举 当前 目录 下 的 所 有 文件 ， 如 果 还 要 显示 文件 的 属性 (如 许可 权 、 拥 有 者 、 文 件 最 近 被 访问 的 时 间 )， 
可 以 输入 命令 : 

dir /l 

命令 行 的 语法 是 简单 的 ， 当 我 们 的 launch 程序 看 见 如 下 命令 行 ; 


a.exe foo 100 


它 将 对 它 进 行 分 析 ， 将 命令 行 中 的 每 个 单词 放 人 字符 串 ， 并 将 它 保存 在 字符 串 数组 char * argv [] 中 。 上 
述 命令 行 可 以 拆 分 如 下 : 


argv [0] = “a.exe” 
argv [1] = “foo” 
argv [2] =“100” 


根据 以 前 程序 设计 课 上 编写 C 程序 的 经 验 ， 你 可 能 对 arg 名 比较 熟悉 了 。 例 如 ， 当 你 写 C 程序 并 想 
要 命令 行 解 释 器 传递 参数 给 你 的 程序 时 ， 可 以 在 main 程序 中 声明 函数 原型 如 下 : 


int main (int argc, char * argv []); 
在 命令 行 解释 器 中 ， 当 用 户 输 入 以 下 形式 的 命令 行 : 
a.out foo 100 


ER RA main 程序 中 的 argc 初始 化 为 3 (因为 命令 行 中 有 3 个 单词 )， 而 argv [] 数组 被 初始 化 为 如 上 所 
显示 的 。a.out 主 程序 将 解释 第 一 个 参数 (argv [1]) 为 一 个 文件 名 ， 第 二 个 参数 (argv [2]) 为 一 个 整 
型 记录 计数 。 当 shell 传递 参数 给 a. cut 主 程序 时 ， 它 将 argv [1] 和 argv [2] 作为 字符 串 来 对 待 。 

因为 本 例 的 目标 就 是 解释 如 何 创建 多 进程 ， 我 们 需要 一 些 方法 来 为 程序 提供 多 个 命令 行 。 可 以 使 用 文 
本 编辑 器 (如 记事 本 ) 来 对 命令 行进 行 记 录 并 命名 为 launchset .txt。 每 一 行 和 键 人 到 cmd.exe 中 的 命令 相 
同 。 下 面 是 launch set. txt 文件 的 一 个 例子 : 

C: \ WINNT \ SYSTEM32 \ NOTEPAD. EXE jnk. txt 

C: \ WINNT \ SYSTEM32 \ CALC. EXE 

C: \ WINNT \ SYSTEM32 \ CHARMAP. EXE 


下 一 步 ， 我 们 来 实现 一 个 名 为 launch. exe 的 程序 ， 它 为 文件 中 的 每 一 命令 行 创建 一 个 新 的 进程 来 执 
行 该 命令 。 如 果 launchset. txt 中 有 20 个 命令 行 的 话 ， 则 程序 将 创建 20 个 进程 来 执行 这 20 个 命令 行 。 程 
序 可 以 通过 键 人 下 如 命令 来 运行 : 

launch launchset. txt 


launch 程序 打开 launchset.txt 文件 ， 从 文件 中 读 取 每 个 命令 行 ， 然 后 创建 进程 来 执行 每 个 命令 。 

在 Windows 系统 中 实现 lanch 程序 有 两 件 事 需要 注意 : 首先 是 让 编译 器 和 链接 器 知道 程序 是 在 
cmd.exe 下 执行 的 ， 而 不 是 在 图 形 窗口 环境 下 执行 的 。 其 次 是 要 设置 使 用 多 线程 的 C 运行 时 库 的 编译 器 和 
链接 器 环境 。 

Win32 控制 台 应 用 

当 编 译 代 码 时 ， 需 要 对 编译 器 提供 如 下 信息 : 你 的 程序 是 使 用 Windows 图 形 界 面 还 是 像 一 个 普通 的 C 
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程序 。 因 为 这 个 例子 是 为 了 阐述 操作 系统 问题 ， 所 有 它 是 一 个 普通 的 C 程序 。 
在 Windows 图 形 程序 和 传统 的 C 程序 之 间 的 第 一 个 区 别 就 是 主 程序 用 的 入 口 函 数 不 一 样 。 
传统 的 C 程序 人 口 〈 标 准 原型 ) 为 : 


int main (int argc, char * argv []); 


而 Windows 图 形 程序 的 人 口 如 下 : 

int WINAPI WinMain( 
HINSTANCE hInstance, // handle to current instance 
HINSTANCE hPreviInstance, // handle to previous instance 
LPSTR lpCmdLine, // pointer to command line 
Int nCmdShow // show state of window 


); 


我 们 将 在 launch 程序 中 使 用 标准 原型 (也 称 Windows 平 台 上 的 控制 台 应 用 )。 

如 果 你 正在 Visual C++ 集成 环境 下 (具有 工作 区 和 和 项目， 参见 Visual C++ 的 文档 ) 开发 软件 ， 当 你 
打开 Visual C++ 环境 时 ， 它 将 试图 使 用 以 前 用 过 的 工作 区 和 项 和 目 。 关 闭 工作 区 ,使 用 “文件 ”菜单 打开 
一 个 新 的 项 目 。Visual C++ 要 求 你 告诉 它 新 项 目的 类 型 及 新 项 目 放 在 哪个 目录 层次 。 你 必须 要 选择 
“Win32 Console Application” 这 一 项 ， 使 得 编译 器 和 链接 器 将 包含 合适 的 类 库 和 头 文件 。 

多 线程 程序 使 用 C 运行 时 库 

微软 C 库 既 可 以 支持 普通 的 C 程序 编写 ， 也 可 以 支持 图 形 环境 的 程序 编写 。 为 了 对 本 例 中 的 代码 进行 
编译 ， 需 要 改变 编译 器 选项 : 首先 ， 在 Visual C++ 的 “Project/Settings” 对 话 框 中 ， 有 一 个 标签 用 来 设置 
C/C++ 参数， 需要 将 默认 命令 行 中 的 /Md 设置 修改 为 /MTd 来 告诉 编译 器 代码 是 多 线程 的 。 其 次 ,在 
“ink” 标 签 中 ， 库 的 列表 需要 包含 /Libcmt.1 记 或 /Libcmtd.1ib。( 第 一 个 版 本 用 来 作 产品 级 的 链接 ， 第 二 
个 版 本 是 用 于 调试 的 )。 增 加 /Libcmtd.1lib 到 链接 器 使 用 的 类 库 中 。 

解决 问题 

我 们 可 以 编写 执行 以 下 步骤 的 程序 来 解决 问题 ; 

1) 读 命令 行 参数 。 

2) 打开 包含 一 组 命令 的 文件 。 

3) 对 每 个 命令 : 

a. 从 文件 中 读 取 命令 。 
b. 创建 一 个 新 的 进程 来 执行 命令 。 

4) 所 有 的 命令 完成 之 后 终止 进程 。 

下 面 是 基于 上 述 步 又 流程 的 代码 框架 : 

#include <windows.h> 


#include <stdio.h> 
#include <string.h> 


#define MAX LINE_LEN 80 


int main(int argc, char *argv[]) { 


// Function prototypes 


// Local variables 
FILE *fid; 
char cmdLine[MAX_LINE_LEN]; 


// CreateProcess parameters 
LPSECURITY_ATTRIBUTES processSA = NULL; // Default 
LPSECURITY_ ATTRIBUTES threadSA = NULL; // Default 
BOOL shareRights = TRUE; // Default 
DWORD creationMask = CREATE NEW CONSOLE; // Window per process 
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LPVOID environment = NULL; // Default 
LPTSTR curDir = NULL; // Default 
STARTUPINFO startInfo; // Result 
PROCESS_INFORMATION procinfo; // Result 


// 1. Read the command line parameters 
if(arge l= 2) { 
fprintf(stderr, “Usage: launch <launch_set_filename>\n"); 
exit(0); 
} 


// 2. Open a file that contains a set of commands 
fid = fopen(argv{1lJ, “r”); 


// 3. For every command in the launch file: 
while (fgets(cmdLine, MAX_LINE LEN, fid) != NULL) { 
// a. Read a command from the file 
if (cmdLine[strlen({cmdLine)-1} == ‘\n'‘') 
emdLine{strlen(cmdLine)-1] = ‘\0'; // Remove NEWLINE 


// b. Create a new process to execute the command 
ZeroMemory(&startInfo, sizeof(startInfo) ); 
startInfo.cb = sizeof(startInfo); 


if (!CreateProcess ( 
NULL, // File name of executable 
emdLine, // Command line 
processSA, // Process inherited security 
threadSA, // Thread inherited security 
shareRights, // Rights propagation 
creationMask, // Various creation flags 
environment, // Environment variabkesr 
curDir, // Child’s current directory 
&startinfo, 
&prociInfo 

) 
} ` 
{ 


fprintf(stderr, “CreateProcess failed on error d\n”, 
GetLastError ()}); 
ExitProcess(0); 
} 
} 


// 4. Terminate after all commands have finished 
return 0; 


} 


这 个 程序 难于 解决 的 一 个 问题 是 如 何 决 定 什 么 时 候 所 有 的 子 进程 执行 完成 。 不 幸 的 是 ， 我 们 还 没有 学 
到 足够 多 的 Windows 知识 来 完美 地 解决 这 个 问题 。 然 而 ， 每 个 子 进程 可 以 在 自己 的 控制 台 窗 口上 执行 (或 
将 CreateProcess () 中 的 dwCreationFlags 参数 设置 为 DETACHED PROCESS 标志 ) 并 自行 结束 程序 。 也 就 
是 说 ， 父 进程 创建 了 几 个 子 进程 之 后 自己 也 就 可 以 结束 了 。 一 般 情况 下 ， 这 不 是 一 种 好 的 编程 模式 ， 但 对 
目前 你 所 具有 的 Windows 知识 来 说 也 是 一 个 比较 好 的 选择 。 
E 





2.5 WK 


STR (objects) 最 初 源 于 仿真 语言 。 在 仿真 系统 中 对 象 是 一 个 自治 实体 模型 ， 用 于 表示 对 自治 系统 单 
元 的 操作 。 一 个 仿真 程序 可 以 看 成 是 一 个 管理 大 量 独 立 计算 单元 的 程序 ， 每 个 单元 在 一 个 时 间 内 完成 少量 
的 计算 ， 并 且 和 兄弟 计算 单元 紧密 地 关联 。 仿 真 语言 Simula 67 创造 了 类 (classes) 的 思想 ， 用 类 定义 一 个 
仿真 计算 单元 的 行为 ， 如 同 程序 定义 进程 和 线程 的 行为 一 样 。 在 类 的 定义 中 ， 人 允许 一 个 对 象 声 明 自 己 的 数 
” 据 ， 这 些 数据 对 类 的 计算 而 言 是 私有 的 。 类 相似 于 一 个 抽象 的 数据 类 型 ， 它 通过 私有 的 变量 维持 自己 的 状 
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态 ， 并 且 作 为 一 个 自治 的 计算 单元 执行 。 这 与 进程 类 似 ， 因 为 它 定 义 了 具有 数据 的 地 址 空间 和 可 以 施加 到 
数据 上 的 函数 集 。 而 仿真 可 以 定义 为 一 组 类 的 实例 一 一 对 象 ， 它 们 之 间 只 能 通过 传递 消息 而 相互 作用 。 

现代 面向 对 象 的 系统 继续 沿用 类 模型 来 定义 一 个 计算 单元 的 行为 。 用 “进程 的 模型 ”定义 可 调度 对 
象 ， 作 为 计算 单元 的 替代 。 对 象 只 对 消息 进行 处 理 。 一 旦 创建 了 一 个 对 象 ， 其 他 的 对 象 可 以 给 新 对 象 发 消 
息 ， 新 对 象 就 会 对 它 的 内 部 数据 执行 特定 的 计算 ， 并 发 送 消息 给 原来 的 发 送 者 或 其 他 的 对 象 。 由 于 对 象 的 
行为 是 由 类 的 定义 所 确定 的 ， 所 以 面向 对 象 的 程序 员 设 计 一 个 系统 时 ， 要 定义 一 系列 的 类 ， 并 描述 什么 时 
候 对 象 应 该 进行 类 的 实例 化 。 

对 象 最 早 广 泛 用 于 用 户 界 面 系统 的 设计 中 。JInterViews 系统 [Linton，Vlissides，and Calder, 1989] 是 
许多 界面 系统 中 有 代表 性 的 一 个 ， 屏 幕 上 出 现 的 每 一 个 条 目 ， 甚 至 一 个 文档 编辑 器 中 的 一 个 字符 ， 都 是 通 
过 对 象 表示 的 。 当 对 象 相互 作用 时 ， 比 如 将 它们 排版 显示 时 ， 对 象 间 通 过 来 回 发 送 消息 (而 不 是 共享 共同 
的 变量 ) 完成 同时 在 屏幕 上 的 显示 。InterViews 以 及 相关 的 系统 清楚 地 表明 了 面向 对 象 编程 的 强大 功能 ， 
如 在 文档 编辑 器 、 图 形 编辑 器 ， 以 及 其 他 基于 可 视界 面 的 系统 中 。 今 天 ， 对 象 方法 也 被 用 于 几乎 所 有 的 应 
用 领域 。 

面向 对 象 程序 设计 已 经 对 程序 员 编写 程序 的 方式 产生 了 深远 的 影响 。 在 1990 年 ， 许多 UNIX 和 Win- 
dows 程序 员 使 用 C 进行 编程 ， 后 来 ， 它 们 都 使 用 C++ 来 编写 程序 。 现 在 Java 已 成 为 一 个 重要 的 程序 设计 
语言 。 程 序 员 可 以 舒服 地 在 对 象 环境 中 开发 软件 。 使 用 Java 语言 来 实现 面向 对 象 设 计时 ， 操 作 系统 调用 使 
用 的 是 JVM 虚拟 机 API， 而 不 是 直接 使 用 下 层 的 操作 系统 系统 调用 接口 。 也 就 是 说 ， 像 Java 这 样 的 面向 
对 象 语言 在 应 用 程序 和 操作 系统 间 设 置 了 虚拟 机 ，Java 程序 员 将 JVM 当 作 操作 系统 看 待 。 

仅 有 少数 的 操作 系统 其 内 部 使 用 对 象 来 进行 构建 。SUN 公司 的 Spring OS 操作 系统 ， 它 的 计划 是 构建 
一 个 商业 上 的 面向 对 象 的 操作 系统 ， 后 来 ， 由 于 其 性 能 并 不 是 十 分 高 效 及 商业 上 的 原因 而 放弃 了 它 的 开 
发 。 使 用 面向 对 象 技术 也 是 构建 操作 系统 的 一 个 选择 ( 见 第 19 章 )， 设 计 者 在 开发 操作 系统 时 要 考虑 的 基 
本 问题 是 : 其 性 能 要 和 用 C 编写 操作 系统 基本 相同 。 

Windows NT/2000/XP 内 核 使 用 了 面向 对 象 程序 设计 的 思想 。Windows NT 内 核 创建 原始 的 操作 系统 
部 件 作 为 专门 的 对 象 ， 但 它 是 使 用 普通 的 C 函数 来 实现 的 。NT 执行 体 (NT Executive) 会 使 用 NT 内 核对 
象 来 创建 内 部 数据 结构 。 尽 管 没 有 语言 继承 机 制 ，NT 执行 体 代码 有 效 地 继承 了 NT 内 核对 象 ， 而 且 按 照 
需要 增加 功能 。 例 如 ，NT 内 核定 义 了 一 个 叫做 dispatcher WRAY “A”: 无 论 何 时 NT 执行 体 创 建 一 个 线 
程 ， 它 实例 化 一 个 dispatcher 对 象 ， 然 后 在 对 象 中 添加 一 些 域 来 存放 线程 的 状态 。NT 内 核 代 码 可 对 线程 对 
RHA) dispatcher 对 象 域 进行 操作 ， 但 是 NT 执行 体 可 以 对 增加 的 域 进行 操作 。 这 种 设计 方法 的 功能 和 任 
何 面 向 对 象 系统 所 实现 的 功能 是 一 样 的 : NT 核心 函数 都 可 以 作用 于 NT 执行 体 抽象 数据 类 型 的 泛 类 。 

对 象 在 操作 系统 环境 中 有 重要 意义 ， 因 为 它们 定义 了 另外 一 种 机 制 来 指定 分 布 式 系统 计算 单元 的 行 
为 。 通 过 说 明 串 行 计算 的 各 个 单元 的 行为 ， 以 及 当 它们 执行 时 的 协作 模型 ， 对 象 说 明了 由 各 计算 单元 组 成 
的 分 布 式 系统 的 行为 。 操 作 系 统 也 可 用 这 种 方法 来 实现 ， 也 要 求 提供 对 对 象 的 有 效 支持 。 


2.6 小 结 


在 现代 操作 系统 中 ， 应 用 程序 员 使 用 的 是 虚拟 机 ， 它 由 进程 、 线 程 、 文 件 和 其 他 资源 组 成 。 进 程 定义 
了 执行 引擎 使 用 的 计算 基础 设施 。 线 程 (执行 引擎 是 表示 程序 执行 的 基本 计算 单元 。 文 件 是 稳定 的 信息 
容器 ， 用 于 将 上 次 过 程 的 信息 保存 起 来 以 备 下 次 使 用 。 所 有 操作 系统 都 提供 了 对 文件 的 支持 。 其 他 资源 包 
括 处 理 器 、 内 存 、 设 备 ， 以 及 可 以 由 进程 从 操作 系统 中 请 求 到 的 任何 其 他 东西 。 资 源 (如 文件 ) 是 系统 控 
制 的 对 象 ， 是 进程 执行 之 前 需要 得 到 的 。 进 程 中 的 线程 共享 程序 和 用 于 支持 执行 的 资源 ， 以 及 操作 的 数 
Hi. HE UNIX 中 ， 操 作 系统 管理 的 基本 计算 单元 是 进程 ， 基 本 的 辅 存单 位 是 文件 。 在 Windows 中 ， 每 一 个 
计算 都 以 线程 和 进程 的 方式 来 组 织 。 

随 着 对 使 用 操作 系统 的 理解 ， 你 可 以 开始 研究 操作 系统 的 设计 。 在 下 一 章 中 ,我 们 将 从 整个 操作 系统 
的 组 织 结构 展开 讨论 。 


2.7 习题 
1. 在 UNIX 或 Linux 中 ， 编 写 一 个 程序 ， 将 两 个 排序 文件 合并 为 一 个 排序 文件 。 
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2. 
3. 


9. 











在 Windows 的 任何 版 本 操作 系统 中 ， 编 写 一 个 程序 ， 将 两 个 排序 文件 合并 为 一 个 排序 文件 。 

编写 一 个 UNIX 程序 。 它 创建 一 个 子 进程 ， 子 进程 打印 一 个 问候 ， 再 睡眠 20 秒 ， 然 后 退出 。 父 进 
程 在 创建 子 进程 前 要 打印 出 一 个 问候 ， 并 要 在 第 一 个 子 进程 终止 后 创建 另 一 个 进程 。 最 后 ， 父 进 
程 终止 。 


. 编写 一 个 Windows 程序 。 它 创建 一 个 子 进程 ， 子 进程 打印 一 个 问候 ， 再 睡眠 20 秒 ， 然 后 退出 。 父 


进程 在 创建 子 进程 前 要 打印 出 一 个 问候 ， 并 要 在 第 一 个 子 进程 终止 后 创建 另 一 个 进程 。 最 后 ， 父 
进程 终止 。 


. 假定 UNIX 内 核 支持 线程 。 你 认为 执行 创建 线程 系统 调用 所 花费 的 时 间 和 执行 fork () 系统 调用 


花费 的 时 间 是 相同 的 吗 ? 为 什么 ? 


. 在 POSIX.1 系统 调用 接口 上 (或 你 的 UNIX 上 ) ， 提 供 C 代 码 段 来 实现 下 面 的 Windows 函数 。 对 于 


dwCreationDisposition 参数 ， 忽 略 TRUNCATE EXISTING。 你 可 以 在 MSDN 类 库 上 阅读 这 个 函数 及 
其 参数 的 准确 描述 。 


CreateFile( LPCTSTR lpFileName, 
DWORD dwDesiredAccess, 
DWORD 0, 
LPSECURITY_ATTRIBUTES NULL, 
DWORD dwCreationDisposition, 
DWORD FILE ATTRIBUTE_NORMAL, 
HANDLE NULL 

) 


. 描述 一 下 ,在 UNIX 系统 中 ， 一 个 shell 脚本 程序 如 何 能 够 每 隔 一 个 小 时 就 “自动 ”执行 。 (提示 ; 


参照 UNIX 中 的 cron 功能 。) 


. 在 C 程序 设计 语言 环境 中 ，POSIX 定义 了 一 个 标准 的 线程 包 。 几 个 制造 商 也 都 提供 了 POSIX 线程 


包 ， 作 为 它们 的 C 编程 环境 中 的 一 个 用 户 库 使 用 。 如 果 你 有 一 个 可 用 的 系统 支持 线程 操作 ;那么 
请 设计 和 实现 一 个 多 线程 程序 ， 其 中 一 个 线程 读 文件 ， 而 第 二 个 线程 向 另 一 个 文件 中 写 数据 。 

思考 一 下 图 2-4 中 的 程序 。C stdio 库 提供 了 一 系列 类 似 的 文件 操作 ， 使 用 FILE 数据 结构 描述 一 个 
文件 。 重 新 编写 图 中 简单 文件 拷贝 的 例子 ,使 用 C stdio 库 中 的 例 程 ， 而 不 是 用 UNIX 内 核 例 程 。 


10. 编写 一 个 shell 脚本 程序 ， 查 询 操作 系统 ， 看 一 下 在 任意 时 刻 低 级 调度 进行 处 理 器 分 配 时 ， 要 考虑 


11. 


的 进程 数目 是 多 少 (当前 “准备 好 运行 ”的 进程 数 )。 然 后 ， 将 结果 附加 上 时 间 惟 ， 写 人 日 志文 
件 。 首 先 你 要 确定 正在 使 用 的 操作 系统 和 shell 程序 的 版 本 。( 提 示 : 查看 一 下 Linux/UNIX 的 man 
页 面 中 的 ps 和 wc 命令 ， 考 虑 在 机 器 中 的 所 有 进程 。) 

编写 一 个 CCC++ /UNIX 中 的 过 程 getTime ()。 在 一 段 代码 执行 之 前 调用 它 ， 返回 该 代码 段 的 开 
始 执行 时 间 ; 代码 段 执行 结束 之 后 ， 再 次 调用 它 返 回执 行 结束 时 间 ， 从 而 得 到 该 代码 段 的 执行 时 
间 并 返回 。 例如: 

double getTime(int); 

start = getTime(-3); 

<code segment>; 

stop = getTime(-3); 

elapsedTime = stop - start; // in milliseconds 


使 用 UNIX 内 核 gettimeofday () 调用 ， 去 读 取 你 的 主机 系统 时 钟 。 可 以 使 用 参数 设 定时 间 分 辩 
率 ， 如 果 参 数 是 i, 那么 一 个 时 间 单位 的 长 度 就 是 10。 (i= 2-? 表 示 返 回 的 时 间 单 位 是 毫秒 ，i= 
2 “表示 返回 的 时 间 单 位 是 微 秒 .) 确定 使 例 程 能 在 你 的 主机 上 正确 运行 的 最 小 的 时 钟 分 辩 率 。 


实验 2.1: 一 个 简单 的 shell 





从 


本 实验 可 以 在 任 一 个 版 本 的 UNIX 系统 下 实现 。 | 
2.4 节 的 代码 开始 ， 我 们 设计 和 实现 一 个 简单 的 交互 式 的 shell 程序 ， 它 可 以 接收 用 户 输入 的 命令 ， 





对 命令 进行 解析 ， 然 后 创建 一 个 子 进程 来 执行 它 。 我 们 将 使 用 execv () 函数 (而 不 是 execvp () BH), 
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这 意味 着 你 必须 要 读 PATH 环境 变量 ， 然 后 在 PATH 环境 变量 设 定 的 目录 下 搜索 命令 行 中 出 现 的 文件 名 。 
背景 交互 用 户 


操作 系统 以 系统 调用 的 方式 来 为 程序 员 提供 它 所 ne 

支持 的 功能 。 操 作 系统 通过 提供 像 read () 和 fork () 

的 系统 调用 为 上 层 软 件 提供 服务 。 用 户 〈 如 批 处 理 计 Me 
算 机 操作 员 或 者 交互 式 用 户 ) 也 需要 与 操作 系统 进行 

交互 ， 他 们 可 以 运行 程序 、 浏 览 文件 信息 等 。 操 作 系 ae | 
统 为 了 这 个 目的 需要 提供 一 个 人 机 接口 吗 ? 在 现代 计 

算 机 系统 中 ， 操 作 系统 并 没有 这 样 的 接口 。 相 反 ， 有 
许多 的 命令 行 解释 器 程序 ， 它 们 使 用 传统 的 系统 调用 AD, 

接口 来 调用 操作 系统 提供 的 服务 ， 提 供给 用 户 一 个 = 
“操作 员 控 制 台 ” ( 见 图 2-11)。 命 令 行 解释 器 仅仅 为 





一 个 应 用 程序 ， 程 序 员 如 果 不 喜 欢 操作 系统 提供 的 命 图 2-11 shell 命令 行 解释 器 

令 行 解释 器 的 话 ， 可 以 自己 编写 一 个 。 注 : shell 命令 行 解释 器 是 使 用 系统 调用 接口 来 实现 
早期 的 UNIX 开发 者 首先 采用 了 这 种 技术 来 构建 的 一 个 应 用 程序 。 它 提供 了 面向 字符 的 人 机 交 

一 个 命令 行 解释 器 [Ritchie and Thompson, 1974], 互 界面 。 


他 们 称 命令 行 解释 器 为 shell 程序 ， 现 在 被 人 们 泛 指 一 个 提供 人 机 交互 界面 的 程序 。 起 这 个 名 字 的 灵感 是 
因为 shell 程序 为 操作 系统 提供 了 一 层 保护 ， 就 像 一 个 外 壳 保 护 牡 明 一 样 。 

最 简单 的 shell 程序 是 基于 字符 的 (更 复杂 的 shell 程序 使 用 图 形 点 击 -选择 界面 )。 在 基于 字符 的 shell 
中 ， 假 定 显 示 器 显示 固定 数量 的 行 (通常 是 25)， 在 一 行 中 显示 固定 的 字符 数 (通常 是 80)。 用 户 通 过 键 
和 人 一 串 字 符 (以 “ 回 车 键 ”结束 ) 到 shell 上 来 与 操作 系统 进行 交互 ， 并 且 操 作 系 统 的 响应 结果 也 是 输出 
一 行 行 的 字符 到 屏幕 上 。 

当 用 户 登 录 到 计算 机 时 ， 一 个 shell 程序 被 启动 用 来 与 用 户 进行 交互 。 一 旦 shell 的 数据 结构 初始 化 并 
准备 开始 工作 ， 它 首先 清 屏 ， 然 后 在 屏幕 上 第 一 个 新 字符 的 位 置 输出 一 个 提示 符 。 有 时 shell 将 机 器 名 配置 
成 提示 符 的 一 部 分 。 我 的 Linux 机 器 名 字 为 kiowa.cs.colorado.edu， 我 使 用 bash， 因 而 bash shell 会 输出 : 


kiowa $ 


作为 提示 字符 串 。( 我 的 BSD 工作 站 使 用 的 是 C shell， 因 而 它 的 提示 符 为 pawnees 。) shell 然后 等 待 用 户 在 
提示 符 后 输入 命令 行 。 命 令 行 可 以 是 如 下 的 字符 串 : 


kiowa$ ls -al 


用 户 使 用 回 车 键 结束 命令 行 (在 UNIX 中 ， 回 车 键 在 系统 内 部 用 NEWLINE 字符 “\n? FI 当 用 户 在 命 
令 行 后 键入 回 车 ，shell 程序 会 发 出 合适 的 系统 调用 来 执行 命令 行 中 的 命令 。 
每 个 shell 都 有 自己 的 语法 和 语义 。 在 标准 的 UNIX shell 中 ， 命 令 行 的 形式 为 


command argument _ 1 argument 2 


命令 行 中 的 第 一 个 词 是 要 执行 的 命令 ， 其 他 的 词 是 命令 中 的 参数 。 正 如 在 2.4 节 所 讨论 的 ， 参 数 的 数目 取 
决 于 要 执行 的 命令 。 例 如 ， 显 示 目 录 命令 可 以 不 使 用 参数 一 一 即 简单 地 输入 “1s”， 或 者 带 有 以 “-” 开 头 
的 参数 ， 如 “1s -al”， 其 中 “a” 和 “1” 就 是 参数 。 每 个 命令 使 用 自己 的 语法 来 对 参数 进行 解释 。 例 如 ， 
C 编译 器 的 命令 可 以 如 下 : 


kiowa $ cc -g -o deviation -S main.c inout.c -lmath 

Hp, “g” . “o” deviation” . “S”, “main.c”, “inout.c”, “liath” 都 将 被 作为 参数 传递 给 C 编 
译 器 “cc"。 另 外 ， 特 定 的 命令 决定 了 哪些 参数 可 以 组 合 在 一 起 使 用 (如 1s 命令 中 的 “a” 和 “1”)， 哪 些 
必须 以 “-” 开 头 ， 参 数 的 先后 位 置 是 否 重要 等 。 

shell 依赖 于 一 个 重要 的 约定 去 完成 它 的 工作 ， 即 命令 行 中 的 命令 ， 通常 就 是 包含 可 执行 程序 的 文件 
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fo PIM, ls 和 cc 就 是 文件 的 名 字 (在 大 多 数 的 UNIX 机 器 中 ， 存 储 在 bin 目录 下 )。 在 少数 情形 下 ， 
命令 不 是 文件 的 名 字 、 但 它 实际 上 是 一 个 在 shell 程序 内 完成 的 命令 ; 例如 ，cd (改变 目录 ) 是 通常 在 shell 
程序 内 实现 ， 而 不 是 通过 一 个 文件 实现 的 。 由 于 大 多 数 的 命令 是 在 文件 中 实现 的 ,命令 如 同 机 器 中 某 个 目 
录 中 的 文件 名 字 。 这 意味 着 shed 的 工作 是 去 找到 该 文件 ， 准 备 命令 的 参数 列表 ， 然 后 使 命令 读 人 参数 执 
行 。 

有 很 多 用 于 不 同 的 UNIX 版 本 的 shell 程序 ， 包 括 最 初 的 Bourne shell (sh)、 在 sh 上 增加 了 一 些 功 能 的 
C shell (csh) 、Korn shell 等 ， 到 标准 的 Linux shell (bash: 表示 Bourne-Again shell) 。 所 有 这 些 shell 都 有 一 
系列 相似 的 命令 行 语 法 规则 ， 尽 管 每 个 都 有 自己 的 特点 。Windows 上 的 cmd.exe shell 使 用 了 自己 家 族 内 
的 、 但 与 其 他 系统 截然 不 同 的 命令 语言 。 

UNIX 风格 的 shell 设计 

一 个 shell 程序 可 以 使 用 很 多 不 同 的 策略 执行 用 户 的 计算 ， 现 代 的 shell 中 使 用 的 基本 方法 是 创建 一 个 
新 的 进程 (线程 ) 执行 任何 新 的 计算 (如 2.4 节 所 描述 的 )。 例 如 ， 如 果 用 户 决定 编译 一 个 程序 ， 与 用 户 
交互 的 命令 解释 器 进程 会 创建 一 个 新 的 子 进 程 ， 然 后 让 新 的 子 进 程 执行 编译 程序 。 

这 种 创建 一 个 新 进程 来 执行 计算 的 思想 ， 可 能 看 起 来 进程 会 过 多 ， 但 它 有 一 个 很 重要 的 特征 。 当 原 进 
程 决定 执行 一 个 新 的 计算 时 ， 它 要 保护 自己 ， 免 遭 可 能 在 执行 新 计算 时 引起 的 致命 错误 的 破坏 。 如 果 不 用 
一 个 子 进程 执行 命令 ， 一 系列 的 致命 错误 可 能 引起 原 进 程 失 败 ， 从 而 导致 整个 机 器 竣 疫 。 

图 2-12 解释 了 UNIX 中 执行 命令 的 过 程 。 其 中 ，shell 用 % 字符 提示 用 户 输入 ， 用 户 输入 “grep first 
f3 。 这 个 命令 表示 shell 会 创建 一 个 子 进程 ， 并 使 它 执 行 grep 搜索 程序 ， 该 程序 使 用 参数 first 和 £3, 
(grep 的 语义 是 : 在 文件 f3 中 查找 包含 字符 串 first 的 行 。) 


% grep first £3 


读 键 盘 






创建 一 个 进程 





Æ 2-12 shell 策略 
TE: shell 通过 创建 子 进程 执行 用 户 输 入 命令 的 方式 来 保护 自己 。grep 命令 是 由 shel 创建 的 子 进程 来 执行 的 。 


在 Ritchie 和 Thompson 的 最 初 关 于 UNIX 的 论文 中 描述 了 Bourne shell [Ritchie and Thompson, 1973]. 
Bourne shell 和 其 他 的 shell 一 样 ， 从 用 户 接收 命令 行 ， 对 命令 行进 行 解释 ， 然 后 利用 系统 调用 来 执行 带 有 
特定 参数 的 命令 。 当 用 户 传递 命令 行 到 shell 时 ， 这 被 解释 成 请 求 执行 一 个 指定 文件 中 的 程序 ， 文 件 中 的 
程序 也 可 以 是 用 户 自己 编写 的 。 就 是 说 ， 程 序 员 可 以 编写 一 个 普通 的 C 程序 ， 对 其 进行 编译 ， 然 后 可 以 让 
它 在 shell 上 执行 。 这 与 普通 的 UNIX 命令 很 相似 。 例 如 ， 你 可 以 编写 一 个 叫 mainc 的 C 程 序 ， 然 后 编译 ， 
让 shell 按 下 面 的 形式 执行 : / 


kiowa $ cc main.c 


kiowa $ a.out 


shell 在 /bin 目录 下 找到 ce 命令 (CREE), ， 然 后 ， 它 创建 一 个 子 进程 并 将 字符 种 “main.c” 作 为 参数 来 
执行 cc 程序 。C 编译 器 在 默认 情况 下 ， 翻 译 存储 在 main.c 文件 中 的 C 程序 ， 然 后 将 执行 结果 写 人 当前 目 
录 中 的 文件 a.out。 在 第 二 个 命令 中 ， 命 令 行 正 好 是 要 执行 的 文件 名 a.out (不 带 参数 )，shell 在 当前 目录 
下 找到 文件 a.out， 然 后 执行 它 。 
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下 面 考虑 shell 完成 工作 必须 采取 的 详细 步骤 : 

m 打印 输出 提示 符 。 在 shell 中 ， 有 时 必须 设置 一 个 默认 的 提示 符 字 串 ， 例 如 “%”、“ 并 ”、“>>” 或 者 
其 他 的 字符 。 当 shell 启动 后 ， 它 可 以 找到 正在 运行 的 机 器 的 名 字 ， 并 考虑 将 其 作为 标准 的 提示 符 
字 串 ， 如 上 面 例子 中 的 “kiowa$"。 也 可 以 把 当前 目录 用 作 shell 提示 符 的 一 部 分 ， 那么 当 用 户 使 用 
cd 命令 改变 目录 时 ， 提 示 符 会 随 之 变化 。 一 旦 提示 符 字 串 确 定 下 来 ，shell 会 将 它 打印 输出 到 std- 
out 这 个 标准 输出 设备 上 ， 并 随时 准备 接收 命令 行 。 

例如 ,下面 的 函数 打印 提示 符 : 


void printPrompt() { 
/* Build the prompt strting to have the machine name, 
* current directory, or other desired information 
*/ 
promptString = ...; 
printf£(“%s “, promptString); 
} 


得 到 命令 行 。 为 了 得 到 命令 行 ，shel 执行 一 个 阻塞 的 读 操作 ， 因 此 执行 shell 的 进程 将 会 阻塞 ， 直 到 
用 户 根 据 提示 符 输 入 了 一 个 命令 行 。 当 用 户 输入 命令 后 (以 回 车 键 结束 )， 命令 行 字符 串 就 返回 到 
shell。 


void readCommand(char *buffer) 《 
/* This code uses any set of I/O functions, such as those in 
* the stdio library to read the entire command line into 
* the buffer. This implementation is greatly simplified, 
* but it does the job. 
*/ 
gets(buffer); 
} 


图 分 析 命 令 行 。 这 在 2.4 节 的 例子 中 进行 了 描述 。 

加 找到 文件 。shell 为 每 个 用 户 提供 了 一 系列 的 环境 变量 (environment variables)， 最 初 是 在 用 户 的 
.login 文 件 中 定义 的 ， 当 然 也 可 随时 用 set 命令 进行 修改 。PATH 环境 变量 的 值 是 一 个 排序 的 绝对 路 
径 列 表 ， 其 中 指定 了 shell 到 哪儿 查找 命令 文件 。 如 果 文 件 中 有 如 下 的 一 行 : 


set path= (.: Abin: /usr/bin) 


shell 将 会 首先 在 当前 目录 下 查找 (因为 第 一 个 参数 “.” 表 示 当 前 目录 )， 然 后 是 /bin, 最 后 是 在 
/usr/bin 中 查找 。 如 果 在 上 述 目录 中 没有 找到 与 命令 名 字 一 一 样 的 文件 ， 那 么 shell 就 会 应 答 用 户 不 
能 找到 命令 。 这 和 需要 在 读 命令 行 之 前 对 PATH 变量 进行 解释 。 如 下 所 示 : 


int parsePath(char *dirs[}} 1 
/* This function reads the PATH variable for this 
* environment, then builds an array, dirs[], of the 
* directories in PATH 
*/ 
char *pathEnvVar; 
char *thePath; 


for(i=0; i<MAX_ARGS; i++) 
dirs{i] = NULL; 
pathEnvVar = (char *) getenv(”“PATH”); 
thePath = (char *) malloc(strlen(pathEnvvar) + 1); 
strcpy(thePath, pathEnvVar); 


/* Loop to parse thePath. Look for a ‘:’ 
* delimiter between each path name. 
*/ 


} 
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用 户 可 能 使 用 一 个 绝对 路 径 名 作为 命令 名 ， 也 可 使 用 相对 路 径 名 〈 根 据 PATH 环境 变量 的 设 定 扩展 ) . 
如 果 命 令 名 是 以 “/” 开 头 ， 则 表示 是 绝对 路 径 名 ， 可 直接 用 于 执行 ; 否则 ， 你 需要 在 PATH 环境 变量 设 定 
的 目录 范围 之 内 查找 相对 路 径 名 ， 并 且 每 次 执行 命令 ， 都 需要 到 环境 变量 指定 的 目录 下 看 是 否 有 相应 的 可 
执行 文件 。lookup () 函数 用 来 完成 这 项 功能 : 


char *lookupPath(char **argv, char **dir) { 

/* This function searches the directories identified by the dir 
+ argument to see if argv{0] (the file name) appears there. 
* Allotate a new string, place the full path name in it, then 
* return the string. 
*/ 
char *result; 
char pName[MAX_ PATH LEN]; 


// Check to see if file name is already an absolute path name 
if(*argv[0} == ‘/') { 


} 


// Look in PATH directories. 
// Use access() to see if the file is in a dir. 
for(i = 0; i < MAX PATHS; i++) { 


} 


// File name not found in any path variable 
fprintf(stderr, “%s: command not found\n”, argv[0]); 
return NULL; 

} 


解决 问题 


继续 阅读 之 前 可 以 看 看 2.4 PH UNIX 例子 。 你 需要 重 写 代码 来 支持 用 户 交 互 。 下 面 是 你 的 迷你 
shell 要 用 的 头 文件 minishell.h: 


#define LINE LEN 80 
#define MAX_ARGS 64 
#define MAX _ARG LEN 16 
#define MAX PATHS 64 
#define MAX_PATH LEN 96 
define WHITESPACE “ .,\t\n" 


#ifndef NULL 
#define NULL ... 
fendif 





struct command t { ‘ 
char *name; 
int argc; 
char *argv[{MAX_ARGS]; 

}; 


下 面 是 解决 方案 的 框架 : 


* This is a very minimal shell. It finds an executable in the 
* PATH, then loads it and executes it (using execv). Since 

* it uses “.” (dot) as a separator, it cannot handle file 

* names like “minishell.h” 
* 
* 
* 


The focus on this exercise is to use fork, PATH variables, 
and execv. This code can be extended by doing the exercise at 
* the end of Chapter 9. 


include ... 
#include “minishell.h” 





50 #2 





char *lookupPath(char **, char **); 
int parseCommand(char *, struct command t *); 
int parsePath(char **); 
void printPrompt(); 
void readCommand(char *); 
int main() { 
/* Shell initialization */ 
parsePath(pathv); /* Get directory paths from PATH */ 


while(TRUE) { 
printPrompt (); 


/* Read the command line and parse it */ 
readCommand(commandLine) ; 


parseCommand(commandLine, &command); 


/* Get the full pathname for the file */ 
command.name = lookupPath(command.argv, pathv); 


if(command.name == NULL) { 
/* Report error */ 
continue; 


} 


/* Create child and execute the command */ 


/* Wait for the child to terminate */ 
} 


/* Shell termination */ 


} 


实验 2.2: 一 个 多 线程 的 应 用 程序 


| _ 本 实验 可 在 当前 任 一 种 版 本 的 Windows 操作 系统 下 实现 。 


编写 一 个 单 进程 、 多 线程 的 程序 一 - 即 在 一 个 进程 内 创建 多 个 线程 执行 。 你 的 程序 ( 称 为 
mthread. exe) 带 有 一 个 整 型 参数 ， 用 于 指定 在 一 个 进程 的 地 址 空间 内 需要 创建 线程 的 数目 。 因 而 ， 运 行程 
序 的 命令 行为 : 


mthread N 


其 中 也是 一 个 无 符号 的 整 型 参数 ， 告 诉 程序 mthread. exe 创建 和 执行 个 另外 的 线程 。 另外， 你 还 可 以 在 
命令 行 中 增加 其 他 的 参数 ; 例如， 提供 控 制 每 个 线程 执行 的 参数 。 


背景 


每 个 Windows 进程 创建 时 都 同时 创建 一 个 基线 程 。 正 如 在 2.4 节 所 描述 的 ， 你 也 可 以 在 当前 的 进程 
中 ,运用 Win32 API 中 的 CreateThread () 函数 创建 另外 的 线程 。 


HANDLE CreateThread( 
LPSECURITY ATTRIBUTES lpThreadAttributes, 
// pointer to thread sedurity attributes 
DWORD dwStackSize, 
// initial thread stack size, in bytes 
LPTHREAD_START_ROUTINE lpStartAddress, 
// pointer to thread function 
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LPVOID lpParameter, // argument for new thread 
DWORD dwCreationFlags, // creation flags 
LPDWORD lpThreadid 
// pointer to returned thread identifier 
Ve 
这 个 函数 使 用 了 6 个 参数 来 描述 新 线程 的 特性 。 当 此 函数 执行 时 ， 操 作 系统 创建 了 内 核对 象 来 保存 新 
创建 线程 的 数据 结构 。 根 据 约定 ， 操 作 系 统 创建 像 线 程 这 样 的 实体 时 ， 它 会 返回 一 个 称 为 HANDLE 的 引用 
(指针 ) 给 调用 程序 。HANPLE 指针 (句柄 ) 由 CreateThread () 函数 返回 给 上 层 调用 者 ， 用 于 随后 的 需要 
标识 该 线程 的 所 有 调用 。 由 于 CreateThread () 调用 成 功 后， 会 明确 分 配 一 个 系统 对 象 一 一 -- 个 资源 ， 因 
此 ， 当 线程 不 再 使 用 时 ， 程 序 员 要 〈 通 过 关闭 对 象 ) 明确 释放 句柄 。 
为 了 理解 CreateThread () 是 如 何 调用 的 ， 下 面 看 一 下 在 当前 进程 中 创建 并 运行 的 线程 要 用 到 的 几 个 
参数 。 
B ]pThreadRttributes。 一 个 任 选 参数 ， 用 来 指定 新 线程 的 安全 属性 ， 设 定 句 柄 是 否 能 被 其 他 的 进程 
和 线程 所 继承 。 在 其 他 版 本 的 Windows (除了 Windows NT/2000/XP) 中 ， 这 个 参数 必须 设 为 
NULL。 对 于 这 个 问题 ， 在 简单 情况 下 ， 该 参数 应 该 设 为 NULL。CreateThread 调用 的 例子 如 下 : 


CreateThread (NULL, ---); 

E dwStackSize。 每 个 线程 都 有 自己 的 栈 ， 因 为 它 与 进程 中 的 其 他 线程 一 起 分 别 独 立地 执行 。 程 序 员 使 
用 这 个 参数 来 设 定 栈 的 大 小 ， 通 常 可 以 使 用 默认 的 设置 ， 将 参数 的 值 置 0， 形 式 如 下 : 
CreateThread (NULL, 0, =); 


E lpStartAddress 和 lpParameter。 为 了 创建 线程 ， 必 须 向 系统 提供 新 线程 将 开始 执行 的 地 址 ，1p- 
StartAddress 就 是 设置 这 个 地 址 的 参数 。 在 传统 的 程序 设计 语言 中 CIA), 通常 ， 计 算 不 可 
能 从 某 个 过 程 的 中 间 开 始 执行 ， 为 了 分 支 到 一 段 新 的 逻辑 代码 中 ， 需 要 把 这 段 代 码 以 过 程 的 形式 组 
织 在 一 起 ， 并 在 其 人 口 点 调用 这 个 过 程 。 参 数 1pStartaddress 是 一 个 函数 人 口 点 的 地 址 ， 该 函数 具 
有 函数 原型 。 如 : 


DWORD NINRPI ThreadFunc (LPVOID); 


这 就 是 说 ， 在 语言 中 ， 要 对 被 调用 的 入 口 点 类 型 与 函数 调用 的 类 型 对 比 检查 (如 同 在 C++ 和 ANSI 
C 中 做 的 一 样 )， 因 而 在 人口 点 地 址 被 作为 参数 使 用 前 ， 必 须 有 一 个 函数 原型 。 当 然 ， 这 也 意味 着 
一 定 有 一 个 函数 来 实现 这 个 原型 ， 在 线程 创建 以 后 ， 就 会 执行 这 个 函数 。 

在 这 种 情况 下 ， 另 一 件 复杂 的 事 是 如 何 传递 参数 到 线程 将 要 执行 的 函数 中 去 。 由 于 有 了 函数 调 
用 和 函数 的 原型 ， 如 果 传 递 一 个 参数 ， 那 么 这 个 参数 的 类 型 或 者 已 经 知道 并 且 声 明 过 ， 或 者 一 定 要 
使 用 void * 类 型 (这 样 在 编译 时 会 告诉 编译 器 ， 线 程 要 执行 的 函数 的 参数 类 型 现在 不 知道 )。Cre- 
ateThread 使 用 后 面 的 方法 ， 这 就 是 函数 原型 使 用 LPVOID (定义 为 void * ) 的 原因 。 当 新 线程 执行 
函数 时 ，1PParameter 参数 值 就 会 传递 过 去 。 

例如 ， 假 定 有 一 个 新 线程 要 开始 执行 的 函数 ， 函 数 原型 如 下 : 


DWORD WINAPT myFunc (LPVOID); 


而 且 ， 假 定 “ 父 线程 ”准备 传递 一 个 整 型 参数 theArg 给 新 的 “ 子 线程 ~。 那么 调用 形式 如 下 : 


int theArg; 


CreateThread (NULL, 0, myFunc, &theArg, … ); 

E dwCreationFlags 参数 用 于 控制 新 线程 创建 的 方式 。 目 前 ， 只 有 一 种 可 能 的 标记 值 CREATE _ SUSPEND- 
印 可 用 于 该 参数 。 这 种 情况 下 创建 新 线程 ， 但 新 线程 被 挂 起 ， 直 到 有 另 一 个 线程 对 新 线程 执行 如 
下 的 操作 时 才 就 绪 : 


ResumeThread (targetThreadHandle) ; 


其 中 ，targetThreadHandle 是 新 线程 的 句柄 。 
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dwCreationFlags 参数 的 默认 值 为 0， 会 使 线程 创建 后 处 于 活动 状态 。 增 加 这 个 参数 ， 调 用 示例 变 
为 : 
CreateThread (Null, 0, myFunc, gtheArg, 0, =); 

@ LpThreadID 是 一 个 指针 参数 ， 指 向 一 个 系统 范围 的 线程 标识 号 DWORD: 


DWORD targetThreadID; 


CreateThread (NULL, 0, myFunc, &theArg, 0, &targetThreadID); 

使 用 CreateThread () 的 复杂 性 

前 面 解释 了 在 使 用 C 运行 时 库 (runtime library) 的 情况 下 (你 也 将 在 本 书 的 实验 中 使 用 ) ， 如 何 创建 
一 个 线程 。C 语言 库 起 源 于 UNIX 环境 ， 当 时 UNIX 对 进程 与 线程 没有 明确 的 区 分 。 在 Windows 操作 系统 
环境 中 ， 很 多 线程 能 够 在 一 个 地 址 空间 内 执行 ， 线 程 都 可 能 访问 地 址 空间 中 的 所 有 信息 一 一 真正 意义 上 的 
“在 一 个 地 址 空间 上 的 执行 "。 这 样 做 的 好 处 是 线程 可 以 很 容易 地 通过 写 人 一 个 进程 的 变量 (那些 不 在 线程 
栈 的 变量 ) ， 与 其 他 线程 共享 信息 ;不利 的 一 面 是 有 的 变量 〈 不 在 线程 栈 上 的 ) 存储 的 信息 可 能 仅 与 其 中 
的 一 个 线程 相关 ， 但 每 个 线程 都 可 以 对 其 读 写 ， 可 能 会 破坏 数据 的 完整 性 。 

[Richter，1997] 列举 了 一 个 非常 好 的 例子 ， 即 变量 errno。 如 果 你 从 未 使 用 过 errno， 考 虑 它 是 一 个 
全 局 变量 ， 当 调用 发 生 错 误 时 ， 由 运行 时 函数 来 设置 这 个 变量 。 在 UNIX 环境 中 ， 进 程 /线程 可 以 简单 地 
读 取 errno 的 值 ， 判 断 在 调用 C 库 函 数 时 发 生 了 什么 类 型 的 错误 。 

如 果 进 程 中 只 有 一 个 线程 在 执行 ， 这 都 会 工作 正常 。 但 是 在 Windows 中 会 引起 竞争 状态 (race condi- 
tion): 假定 有 两 个 线程 R 和 S 在 一 个 进程 中 执行 ， 并 且 同 时 决定 调用 C 运行 时 库 函 数 。 这 就 意味 着 在 一 个 
单 处 理 器 系统 中 ， 或 者 R， 或 者 S 都 将 执行 运行 时 库 函 数 并 返回 。 在 这 个 例子 中 ， 假 设 R 的 调用 会 产生 一 
个 错误 ，errno 会 被 重 置 来 反映 错误 的 性 质 〈 就 是 说 ，R 一 旦 检测 到 调用 失败 ， 就 应 该 检查 errno)。 现 在 
假定 ， 在 R 刚 返回 还 没有 检查 errno 之 前 ， 线 程 调度 程序 中 断 R， 然 后 分 配 处 理 器 给 S， 让 S 调用 运行 时 
库 例 程 。S 的 调用 同样 失败 ， 因 而 也 会 设置 errno， 让 S 知道 错误 的 性 质 ， 这 会 覆盖 ermo 中 以 前 写 的 值 
( 那 是 R 在 中 断 之 前 应 该 读 到 的 值 )。 而 S 可 以 读 取 errno 的 值 ， 检 测 调用 错误 。 最 后 ，R 又 被 分 配 处 理 器 
重新 执行 ， 它 首先 做 的 事情 会 是 检测 errno 一 一 只 会 看 到 S 的 调用 所 产生 的 错误 结果 ， 而 不 是 它 自己 的 。 

这 种 情形 只 会 在 一 定 的 条 件 下 发 生 ， 因 而 它 所 产生 的 错误 是 随机 的 ， 也 是 极其 难以 发 现 的 。 如 何 避 免 这 
种 问题 呢 ? 微软 已 经 提供 了 替换 Createrhread () 的 函数 调用 _beginthreadex ()， 它 可 以 用 在 让 多 个 线程 同 
时 调用 C 运行 时 库 函 数 的 程序 中 。 微 软 的 解决 方案 是 让 Windows C 运行 时 库 为 每 个 线程 提供 一 个 所 使 用 的 全 
局 变量 拷贝 。 那 么 ， 当 一 个 线程 与 运行 时 库 交 互 时 ， 变 量 会 只 在 运行 时 库 代 码 和 线程 内 共享 ， 而 不 会 在 所 有 
的 线程 间 共享 。_ beginthreadex () 函数 为 线程 创建 做 了 预备 工作 后 ， 再 对 Createthread () 进行 调用 。 

下 面 是 _ beginthreadex () 函数 的 细节 ， 首 先是 它 的 函数 原型 : 


unsigned long _beginthreadex( 
void *security, 
unsigned stack_size, . 
unsigned ( _ stdcall *start_address )( void * ), 
void *arglist, 
unsigned initflag, 
unsigned *thrdaddr 
); 


尽管 _beginthreadex () 函数 的 参数 类 型 和 CreateThread () 函数 有 着 明显 的 不 同 ， 你 可 以 声明 用 于 cre 


ateThread () 调用 的 参数 ， 然 后 将 它们 传递 给 _ beginthreadex (), 这 意味 着 我 们 可 以 将 前 面 例子 中 的 
CreateThread () 调用 转换 成 如 下 的 程序 : 


DWORD WINAPI myFunc(LPVOID); 


LPSECURITY_ATTRIBUTES lpThreadAttributes = NULL; 
DWORD stackSize = 0; 

int theArg; 

DWORD dwCreationFlags = 0, 
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DWORD targetThreadID; 
_beginthreadex( 
(void *) lpThreadAttributes, 
(unsigned) stackSize, 
(unsigned (_stdcall *)(void *)) myFunc, 
{void *) &theArg, 
(unsigned) dwCreationFlags, 
(unsigned *) &targetThreadiID 


) 3? 


格式 看 起 来 不 太 好 ， 但 它 可 以 运行 ， 当然 你 可 以 使 用 微软 风格 的 格式 ， 使 它 美观 一 些 。 在 你 进行 上 面 
的 编码 并 编译 时 ， 一 定 要 看 看 在 2.4 节 中 Windows 例子 的 相关 注释 。 


解决 问题 
本 实验 要 求 编写 一 个 实现 如 下 步骤 的 程序 : 
m 读 命令 行 参数 N。 
m 创建 N 个 新 线程 来 执行 模拟 工作 。 


u 在 所 有 线程 完成 后 ， 程 序 终止 。 
下 面 是 解决 方案 的 框架 : 


#include <windows.h> 
#include <math.h> 
#include <stdio.h> 
include <stdlib.h> 


static int runFlag = TRUE; 


void main(int argc, char *argv[]) { 
unsigned int runTime; 


SYSTEMTIME now; 
WORD stopTimeMinute, stopTimeSecond; 


// Get command line argument, N 
// Get the time the threads should run, runtime 
// Calculate time to halt (learn better ways to do this later) 
GetSyatemTime(é&now); 
printf(“mthread: Suite starting at system time 
$d:%d:%d\n”, now.wHour, now.wMinute, now.wSecond}; 
stopTimeSecond = (now.wSecond + (WORD) runTime) % 60; 
stopTimeMinute = now.wMinute + (now.wSecond + 
(WORD) runTime) / 60; 


// For 1 to N 
for (i = 0; i < N; i++) { 
// Create a new thread to execute simulated work 
Sleep(100); // Let newly created thread run 
} 


// Cycle while children work ... 
while (runFlag) { 
GetSystemT ime (&now); 
if ((mow.wMinute >= stopTimeMinute) 
&& 
(now.wSecond >= stopTimeSecond) 
) 
runFlag = FALSE; 
Sleep(1000); 
} 
Sleep(5000); 
} 


注意 Sleep (K) 调用 ， 它 是 一 个 Win32 API 函数 ， 会 使 当前 线程 让 出 处 理 器 ， 并 且 阻 塞 自己 ， 直 到 K 
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密 秒 以 后 该 线程 被 唤醒 ， 再 进 人 合适 的 调度 队列 。 当 调用 创建 一 个 新 线程 后 ， 进 行 一 次 Sleep () 调用 ， 
因而 调用 线程 会 阻塞 100 毫秒 〈0.1 秒 )， 给 最 近 创建 的 线程 一 个 运行 的 机 会 。 这 是 多 线程 编程 中 的 标准 技 
术 。 

这 个 代码 框架 使 用 系统 时 间 决 定 一 个 子 线程 应 该 运行 多 长 时 间 。 代 码 读 取 进程 和 线程 集合 应 该 存在 的 
时 间 ， 确 定 当前 时 间 ， 然 后 计算 线程 集合 应 该 停止 的 时 间 。 在 创建 了 工作 者 线程 开始 做 模拟 工作 后 ， 协 调 
线程 会 检查 当前 时 间 ， 查 看 是 否 已 到 停止 的 时 间 ; 如 果 还 没有 到 停止 的 时 间 ， 协 调 线程 休眠 1000 毫秒 (1 
秒 ) ， 然 后 被 唤醒 ， 再 检查 线程 的 时 间 。 当 时 间 结 束 时 ， 协 调 线程 设置 全 局 标记 变量 runFlag (AW FALSE, 
等 待 5 秒 钟 ， 然 后 终止 。 在 你 能 真正 理解 这 个 奇怪 的 协议 之 前 ， 先 看 一 下 工作 者 线程 的 代码 框架 : 


// The code executed by each worker thread (simulated work) 
DWORD WINAPI threadWork(LPVOID threadNo) { 
// Local variables 
double y; 
const double x = 3.14159; 
const double e = 2.7183; 
int i; 
const int napTime = 1000; // in milliseconds 
const int busyTime = 40000; 
DWORD result = 0; 


// Create load 

while(runFlag) { 

// Parameterized processor burst phase 
for(i = 0; i < busyTime; i++) 

y = pow(x, e); 

// Parameterized sleep phase 
Sleep(napTime) ; 

// Write message to stdout 


} 
// Terminating 
return result; 


} 
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个 工作 者 线程 直到 看 见 runFlag 值 变 为 FALSE 才 会 终止 。 注 意 在 这 个 解决 方案 中 ,线程 集 使 用 一 个 共享 的 
变量 来 决定 什么 时 候 结 束 ， 这 是 在 一 组 进程 中 不 可 能 实现 的 方法 。 仔 细 思 考 一 下 ， 为 什么 线程 中 可 以 使 
用 ， 而 进程 间 不 能 ? 





第 3 章 操作 系统 的 组 织 结构 


这 一 章 介绍 操作 系统 概念 及 其 内 部 设计 。 操 作 系统 创建 了 很 多 可 供应 用 程序 员 使 用 的 抽象 组 件 ， 并 为 
这 些 组 件 的 协同 工作 提供 了 手段 。 我 们 首先 介绍 任何 操作 系统 都 需要 的 一 些 基本 功能 : 设备 管理 、 进 程 和 
资源 管理 、 存 储 管理 、 文 件 管理 ， 以 及 功能 化 的 组 织 结构 ; 然后 ， 我 们 将 阐述 一 般 的 实现 方法 学 : 性 能 和 
可 信 软 件 。 在 这 一 章 中 我 们 引入 了 软件 模块 化 问题 ， 第 19 章 中 对 它 有 更 详细 的 讨论 。 这 一 章 也 包含 了 
UNIX 内 核 和 Windows NT 内 核 的 一 般 结 构 描 述 。 


3.1 基本 功能 


操作 系统 有 两 个 基本 的 任务 (IA 3-1): 

m 创建 一 个 有 多 自治 抽象 组 件 的 虚拟 机 环境 ， 其 中 的 大 

多 数组 件 可 以 并 发 运行 。 例 如 ， 操 作 系 统 使 用 多 道 程 

序 设 计 来 为 每 个 进程 创建 一 个 虚拟 机 。 

m 根据 计算 机 管理 员 的 策略 来 协调 组 件 的 使 用 。 例 如 ， 

调度 器 决定 什么 时 机 、 选 择 什么 进程 为 它 分 配 处 理 器 。 

操作 系统 的 创建 部 分 提供 了 程序 员 使 用 的 各 种 抽象 资源 
(如 进程 、 线 程 和 资源 )。 协 调 部 分 管理 这 些 资源 的 并 发 使 用 ， 
并 使 得 一 组 进程 可 以 协同 工作 。 

大 家 在 提供 操作 系统 所 需 的 功能 集合 上 意见 有 分 歧 。 每 
类 操作 系统 都 根据 工程 和 市 场 策略 来 提供 相应 的 功能 集 。 我 





们 的 目标 就 是 要 学 习 操作 系统 功能 后 面 的 基本 原理 ， 并 将 这 创建 抽象 组 件 
些 原理 应 用 到 特定 操作 系统 的 实验 中 去 。 操 作 系统 功能 可 以 


分 为 以 下 4 类; 
四 设备 管理 图 3-1 操作 系统 的 目的 
加 进程 、 线 程 和 资源 管理 注 : 操作 系统 创建 了 可 供应 用 程序 员 使 
m 存储 管理 用 的 一 组 抽象 组 件 。 这 些 抽象 组 件 
m 文件 管理 包括 进程 、 线 程 和 文件 。 在 多 道 程 
我 们 将 使 用 这 些 一 般 化 的 特征 作为 框架 来 考虑 详细 需求 、 序 设计 操作 系统 环境 中 ， 多 个 进程 
设计 问题 、 体 系 结构 和 实现 。 我 们 首先 来 考虑 这 些 操作 系统 竞争 使 用 抽象 资源 ， 所 以 操作 系统 
组 件 的 一 般 化 描述 。 需要 协调 进程 使 用 资源 的 方式 。 
3.1.1 设备 管理 


操作 系统 根据 设计 者 或 系统 管理 员 选 择 的 策略 ,来 管理 设备 的 分 配 、 隔 离 以 及 共享 使 用 。 甚 至 不 支持 
多 道 程序 设计 的 操作 系统 也 采取 了 设备 管理 策略 。 大 多 数 的 操作 系统 都 使 用 相同 的 管理 方法 来 管理 如 磁 
盘 、 磁 带 、 终 端 以 及 打印 机 等 不 同 设备 ， 而 对 处 理 器 和 内 存 则 采用 特殊 的 管理 方法 。 设 备 管理 指 的 是 一 般 
设备 的 处 理 方法 。 

设备 管理 包括 了 设备 相关 部 分 和 设备 无 关 部 分 ( 见 图 3-2)。 设 备 相关 部 分 ， 也 称 作 设备 驱动 程序 
(device driver) ， 实 现 了 具体 设备 的 设备 管理 方法 。 例 如 ， 当 键盘 上 的 某 个 键 被 按 下 时 ， 键 盘 设 备 驱 动 程序 
能 用 来 探测 来 自 键盘 的 击 键 。 

设备 管理 的 无 关 部 分 定义 了 一 个 设备 相关 驱动 程序 可 以 执行 的 软件 环境 。 例如， 无 关 部 分 包括 了 系统 
调用 接口 并 能 将 调用 导向 特定 的 设备 驱动 程序 。 设 备 管理 系统 的 设备 无 关 部 分 相对 来 说 比较 小 ， 大 部 分 功 
能 是 在 一 组 设备 驱动 程序 中 实现 的 。 
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将 设备 管理 分 成 相关 和 无 关 的 组 件 ， 使 得 在 计算 机 上 增加 设备 得 到 了 简化 。 首 先 ， 操 作 系统 设计 者 需 
要 知道 哪些 部 分 是 设备 相关 的 ， 哪 些 部 分 是 
设备 无 关 的 。 无 关 的 部 分 在 操作 系统 内 部 实 waren 
现 (它们 能 与 所 有 的 设备 打交道 )， 相 关 部 分 Ed 
是 在 具体 设备 的 设备 驱动 程序 中 实现 的 。 这 
意味 着 设备 管理 的 无 关 部 分 可 以 使 用 系统 调 
用 来 读 写 任何 设备 。 打 印 机 设备 驱动 程序 包 
含 了 具体 打印 机 (如 Postscript 打印 机 ) 的 所 E L 
有 软件 。 因 为 无 关 部 分 是 所 有 设备 的 一 层 抽 
象 并 内 绕 在 操作 系统 中 ， 所 以 设计 者 随时 可 D, oy . 
以 为 新 设备 添加 设备 驱动 程序 到 操作 系统 。 ge E il 

设备 管理 是 重要 的 ， 但 相对 于 整个 操作 Asi Bae 

equate Sa = 图 3. 

poet a piz “s 员 3 i Linen 注 : 设备 管理 由 一 组 设备 无 关 部 分 程序 和 一 组 设备 相关 部 分 程 


ae Wade 序 (每 种 设备 都 有 一 种 设备 相关 部 分 程序 ) 组 成 。 设 备 无 
算 机 组 织 结构 的 一 部 分 的 设备 行为 进行 了 介 关 部 分 程序 为 所 有 不 同 的 设备 类 型 提供 了 一 个 统一 的 接口 ， 


绍 。 第 5 章 将 对 设备 管理 有 一 个 详细 介绍 。 设备 相关 部 分 程序 为 设备 无 关 部 分 提供 了 具体 的 功能 。 
3.1.2 进程 、 线 程 和 资源 管理 


进程 和 线程 是 程序 员 所 定义 的 计算 的 基本 
运行 单位 ,而 (抽象 ) 资源 是 进程 执行 所 需要 
的 计算 环境 中 的 元 素 。 操 作 系统 的 这 一 部 分 软 
件 在 硬件 之 上 实现 了 虚拟 机 ， 它 创建 了 进程 、 
线程 和 资源 的 抽象 ( 见 图 3-3)。 操 作 系统 的 这 
部 分 软件 负责 管理 硬件 处 理 器 资源 和 各 种 抽象 
资源 (如 消息 )。 与 存储 管理 部 分 一 起 担负 部 
分 内 存 管 理 的 工作 。 

进程 管理 、 线 程 管理 和 资源 管理 可 以 分 成 
独立 的 逻辑 单元 ,但 是 大 部 分 操作 系统 将 它们 
组 合成 一 个 单独 的 模块 ， 因 为 它们 一 起 定义 了 








虚拟 机 环境 的 基本 部 分 。 在 这 本 书 中 ,我 们 将 图 3-3 进程、 线程 和 资源 管理 
操作 系统 中 的 “进程 、 线 程 和 资源 管理 ”简称 Œ: 进程 、 线 程 和 资源 管理 器 负责 管理 处 理 器 和 各 种 不 同 
为 “进程 管理 ”。 的 抽象 资源 。 它 与 存储 管理 器 协作 来 管理 主 存 。 


在 第 2 章 中 ，UNIX 进程 模型 是 操作 系统 如 何 定义 计算 环境 的 一 个 例子 。UNIX 类 型 的 操作 系统 提供 
了 一 组 创建 、 销 毁 、 阻 塞 和 运行 进程 的 进程 管理 设施 。 第 2 章 还 描述 了 一 种 更 现代 的 基于 线程 的 方法 ， 计 
算 单元 可 分 为 静态 的 进程 部 分 和 动态 的 线程 部 分 。 对 于 基于 线程 的 系统 ， 进 程 管理 器 更 复杂 ， 因 为 它 必 须 
将 进程 和 线程 作为 单独 的 实体 来 管理 。 

资源 管理 器 负责 为 线程 请 求 分 配 资源 ， 并 当 线 程 不 再 使 用 时 负责 回收 。 逻 辑 上 ， 设 计 者 可 以 在 功能 上 
将 资源 管理 和 线程 /进程 管理 分 离开 来 。 然 而 ， 资 源 状态 的 改变 常常 与 进程 状态 的 改变 有 关 ， 所 以 操作 系 
统 设计 者 趋 于 把 资源 管理 作为 进程 管理 的 一 部 分 讨论 。 

进程 管理 器 通过 提供 多 道 执行 环境 和 调度 策略 可 以 使 多 用 户 (进程 和 线程 ) 共享 机 器 ， 每 个 线程 都 有 
一 个 可 用 的 时 间 片 来 执行 。 进 程 管理 要 考虑 的 主要 问题 是 : 如 何 将 进程 之 间 的 资源 访问 隔离 开 来 ， 并 在 需 
要 时 绕 过 隔离 机 制 来 实现 进程 间 资 源 共 享 。 第 6 一 10 章 描述 了 有 关 进 程 管理 器 设计 的 一 些 问题 。 


3.1.3 存储 管理 
存储 管理 器 通过 与 进程 管理 器 协作 来 管理 内 存 资源 的 分 配 和 使 用 ( 见 图 3-4) 。 每 个 进程 会 根据 它 的 程 
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序 定义 请 求 和 使 用 内 存 ， 存 储 管理 器 根据 特定 的 策略 来 为 进程 分 配 内 存 ， 并 且 加 强 共享 限制 。 一 个 允许 共 
享 的 策略 与 没有 共享 的 策略 相 比 ， 前 者 的 设计 
要 复杂 得 多 ， 所 以 ,在 隔离 机 制 存在 的 情况 
下 ， 人 允许 存储 管理 器 采取 块 共享 的 机 制 来 实现 
资源 共享 。 

现代 存储 管理 器 提供 了 虚拟 存储 器 (virtu- 
al memory) 扩展 功能 ， 因 而 虚拟 机 的 内 存 似乎 
比 机 器 的 物理 内 存 大 得 多 ， 它 是 通过 集成 了 计 
算 机 的 主 存 和 辅 存 来 实现 的 ， 这 样 允 许 进 程 访 
问 在 辅 存 设备 上 的 存储 内 容 ， 如 同 它 存 储 在 主 
存 中 一 样 。 虚 拟 存储 器 的 管理 要 求 与 传统 的 不 
同 ， 即 系统 要 管理 一 个 抽象 资源 一 一 虚拟 存储 图 3-4 存储 管理 
空间 ， 它 必须 结合 物理 存储 空间 的 管理 方案 来 ” 注 : 存储 管理 器 通过 与 进程 管理 器 协作 来 管理 内 存 资源 。 
管理 主 存 和 辅 存 。 第 11 章 和 第 12 章 将 对 存储 如 果 操 作 系 统 支持 虚拟 内 存 机 制 ， 存 储 管理 器 将 和 设 
管理 方法 、 问 题 和 设计 进行 讨论 。 备 、 文 件 管理 器 一 起 来 管理 内 存 和 分 页 设备 。 

现代 存储 管理 器 可 以 使 得 一 个 机 器 上 的 线程 可 以 访问 和 共享 另 一 个 机 器 的 物理 存储 器 ， 它 通过 互连网 
络 传递 和 接收 消息 ， 提 供 了 一 个 分 布 式 的 共享 存储 器 抽象 。 在 这 种 情形 下 ， 存 储 管理 器 结合 了 它 的 “本 
地 ”存储 管理 功能 和 网 络 设备 的 功能 。 第 17 章 将 对 分 布 式 共享 存储 器 进行 讨论 。 


3.1.4 文件 管理 


文件 是 一 个 存储 设备 的 抽象 。 当 进程 释放 所 使 用 的 内 存 时 ， 存 储 在 内 存 中 的 信息 将 会 被 覆盖 重 写 ， 信 
息 必须 被 保存 到 如 光盘 或 磁盘 等 永久 存储 设备 中 。 文 件 管理 器 通过 与 设备 管理 器 和 存储 管理 器 进行 交互 来 
实现 了 这 种 抽象 。 在 第 2 章 中 指出 了 ， 对 存储 设备 I/O 操作 细节 的 抽象 需求 推动 了 操作 系统 开发 的 第 一 
步 , 文件 是 操作 系统 中 典型 的 抽象 资源 。 

根据 需求 ， 不 同 的 文件 管理 器 对 存储 设备 提供 了 不 同 的 抽象 ， 有 的 将 文件 作为 简单 的 字 节 流 的 模型 ， 
有 的 将 文件 作为 可 索引 记录 的 模型 。 

在 现代 操作 系统 中 ， 文 件 系统 是 分 布 式 的 ， 因 此 ， 一 个 机 器 上 的 进程 可 以 读 写 存储 在 它 的 本 地 系统 中 
的 文件 ， 也 可 以 通过 网 络 读 写 在 其 他 机 器 存储 设备 中 的 文件 。 在 第 13 章 中 ， 将 讨论 本 地 文件 系统 是 如 何 
定义 和 实现 的 ， 以 简化 应 用 程序 编程 ， 第 16 章 概 括 地 介绍 在 网 络 环境 中 远程 文件 系统 的 实现 。 


3.2 一 般 实现 考虑 


操作 系统 是 算法 和 数据 结构 的 集合 。 为 了 实现 有 关 抽 象 和 资源 共享 的 功能 需求 ， 在 软件 设计 中 有 两 个 
需要 反复 考虑 的 问题 : 

加 性能。 操作 系统 必须 要 能 有 效 地 使 用 计算 机 资源 (特别 是 处 理 器 和 内 存 空间 )， 并 能 最 大 化 资源 被 
应 用 程序 使 用 的 使 用 率 。 

m 对 资源 的 独占 性 使 用 。 操 作 系统 必须 提供 资源 隔离 ， 允 许 进程 的 资源 对 信息 进行 保存 而 不 用 担心 信 
息 被 修改 或 拷贝 。 不 能 保证 资源 隔离 是 操作 系统 的 最 大 失败 。 

有 三 种 基本 的 实现 机 制 ， 用 于 每 个 当代 操作 系统 的 设计 之 中 : 

加 处 理 器 模式 。 用 一 个 处 理 器 硬件 模式 位 ， 可 以 区 分 指令 是 代表 操作 系统 执行 ， 还 是 在 代表 用 户 执行 。 

E 内 核 。 内 核 包含 了 操作 系统 中 最 关键 的 部 分 ， 内 核 设计 为 可 信 的 软件 模块 ， 以 支持 所 有 其 他 软件 的 
正确 操作 。 

国 请 求 系统 服务 的 方法 。 这 个 问题 涉及 到 用 户 进程 向 操作 系统 请 求 服务 的 方式 : 通过 一 个 系统 调用 ， 
或 者 给 系统 进程 发 送 一 个 消息 来 实现 。 

本 节 的 剩余 部 分 我 们 将 仔细 看 看 这 些 需求 和 机 制 。 
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3.2.1 性 能 


人 们 使 用 计算 机 ， 是 因为 它 具 有 远 远 超过 人 工 处 理 能 力 的 快速 处 理 信息 潜能 。 人 们 可 以 通过 计算 机 完 
成 那些 在 手工 计算 时 代 完 全 没有 考虑 过 的 问题 。 例 如 ， 对 于 基本 的 数字 运算 ,快速 自动 的 电子 计算 的 好 处 
是 明显 的 。 计 算 机 现在 已 经 更 多 地 用 于 字符 和 图 像 处 理 。 现 在 ， 高 性 能 的 计算 机 越 来 越 多 地 用 于 浏览 网 
页 、 文 档 搜索 ， 这 在 十 几 年 前 几乎 是 不 可 想像 的 。 

在 基本 需求 层面 上 ， 通 过 简化 编程 接口 和 实现 资源 共享 的 机 制 ， 操 作 系 统 证 明了 它 的 能 力 。 这 两 种 都 
是 管理 意义 上 的 功能 ， 它 们 不 能 直接 用 于 解决 问题 ， 而 是 提供 了 一 个 应 用 程序 员 可 以 采用 的 、 高 性 价 比 的 
虚拟 机 环境 。 甚 至 有 人 认为 ， 这 种 管理 功能 是 通过 计算 机 整体 的 效率 来 体现 的 ， 因 为 对 各 个 进程 服务 的 开 
销 问题 仍然 存在 。 例 如 ， 尽 管 抽象 使 编写 程序 、 解 决 一 个 特定 问题 变 得 容易 了 ， 然 而 抽象 的 使 用 会 使 程序 
的 执行 慢 了 多 少 呢 ? 使 用 文件 资源 方式 代替 直接 操纵 存储 设备 方式 的 性 能 开销 又 多 了 多 少 呢 ? 

对 操作 系统 中 的 每 个 设计 问题 ， 它 们 对 系统 功能 和 系统 性 能 的 影响 都 要 进行 评估 。 强 调 考虑 系统 性 能 
时 ， 常 常 使 一 些 优秀 的 功能 不 能 加 入 到 操作 系统 中 去 。 有 很 多 这 样 的 情形 ， 因 为 硬件 的 性 能 提高 ， 最 后 导 
致 设计 者 将 某 种 功能 引入 系统 而 忽视 其 低 效 性 。 这 种 情况 典型 的 例子 有 : 高 级 编程 语言 、 对 象 、 图 形 化 功 
能 以 及 网 络 功能 等 。 

事实 上 ， 并 不 存在 一 种 明确 的 、 用 来 确定 一 种 开销 大 的 功能 是 否 应 该 在 操作 系统 中 实现 的 方法 。 这 需 
要 仔细 地 在 功能 和 性 能 间 进 行 权 衡 ， 还 需要 采用 工程 化 的 方法 ， 具 体 问题 具体 分 析 。 操 作 系统 设计 的 艺术 
与 计算 机 性 能 的 研究 密切 相关 。 


3.2.2 资源 独占 性 使 用 


多 道 程序 设计 计算 机 系统 能 同时 支持 多 个 进程 和 线程 运行 。 它 建立 了 一 个 进程 共享 资源 的 计算 环境 。 
这 种 运行 环境 要 求 操作 系统 能 提供 一 种 机 制 ， 保 证 机 器 中 正在 执行 的 进程 间 不 相互 干扰 ， 也 就 是 一 个 进程 
在 未 被 明确 授权 之 前 ， 不 能 使 用 某 种 资源 。 一 个 进程 在 访问 资源 之 前 ,必须 确定 它 对 资源 是 独占 式 控制 
的 ， 还 是 在 资源 共享 的 环境 下 进行 资源 访问 。 即 操作 系统 必须 能 够 管理 不 同 的 配置 ， 其 中 ， 资 源 或 者 被 进 
程 独 占 使 用 ,或 者 在 一 组 特定 的 进程 间 共 享 ; 同时， 操作 系统 应 具有 根据 所 有 进程 的 需要 和 愿望 改变 配置 
的 灵活 性 。 

保护 机 制 是 操作 系统 提供 的 实现 安全 策略 的 工具 ， 可 以 由 系统 管理 员 选 择 使 用 。 一 种 安全 方案 poli- 
cy) 定义 了 管理 资源 访问 的 机 器 相关 策略 。 例 如 ， 一 种 方案 可 以 说 明 为 : 在 一 个 时 刻 ， 只 能 有 一 个 进程 可 
以 打开 一 个 特定 的 文件 进行 写 操作 ， 而 同时 可 以 有 多 个 进程 对 该 文件 执行 读 操作 。 文 件 保护 机 制 ， 可 能 通 
过 提供 对 文件 的 读 和 写 加 锁 的 方法 ， 来 实现 这 个 安全 方案 。 

保护 机 制 必须 由 操作 系统 软件 实现 。 这 就 对 操作 系统 设计 者 提出 了 一 个 有 趣 的 挑战 ， 即 如 果 操 作 系 统 
软件 设立 一 种 安全 方案 ， 那 么 如 何 防止 应 用 软件 改变 这 个 方案 ? 这 是 现代 操作 系统 设计 中 (除了 性 能 外 ) 
的 另 一 个 挑战 。 然 而 ， 和 人 性 能 因素 一 样 ， 它 在 操作 系统 的 功能 设计 决策 中 也 是 最 值得 考虑 的 重要 因素 。 

在 现代 的 操作 系统 中 ， 可 以 根据 保护 机 制 来 区 分 软件 是 可 信和 软件 还 是 不 可 信 软 件 。 可 信和 软件 被 仔细 地 
编写 和 调试 过 (有 时 甚至 被 证 明 是 正确 的 )。 而 不 可 信和 软件 则 没有 进行 仔细 的 分 析 ， 即 使 用 户 在 不 可 信和 软 
件 上 进行 了 正确 的 操作 ， 也 不 能 保证 结果 就 是 正确 的 。 操 作 系 统 内 核 是 可 信和 软件。 所 有 其 他 的 软件 ， 包 括 
应 用 程序 、 系 统 软件 和 操作 系统 扩展 都 被 内 核 认 为 是 不 可 信和 软件 。 计 算 机 的 安全 操作 仅仅 依赖 于 可 信 软 
件 ， 而 不 是 不 可 信和 软件 。 

当 可 信和 软件 被 开发 出 来 后 ， 程 序 员 怎么 能 确定 不 可 信 软 件 不 能 改变 它 ? 计算 机 保护 机 制 的 一 个 基本 要 
求 就 是 要 在 可 信和 与 不 可 信 软 件 间 提 供 访问 屏障 。 要 是 没有 这 样 的 屏障 ， 要 确保 软件 执行 特定 的 功能 几乎 是 
不 可 能 的 。 可 信 软 件 的 思想 将 一 直 出 现在 操作 系统 设计 的 讨论 中 。 处 理 器 模式 提供 了 关键 硬件 要 素来 实现 
可 信 软 件 。 


3.2.3 处 理 器 模式 


当代 处 理 器 中 包含 了 一 个 模式 位 ， 定 义 一 个 程序 在 处 理 器 上 的 执行 权能 ， 该 位 可 以 设 为 核心 模式 
(supervisor mode) RA PIA (user mode)。 在 核心 模式 中 ， 处 理 器 可 以 执行 硬件 指令 系统 中 的 每 条 指令 ; 








RU A È bG EAR A H 59 





而 在 用 户 模式 中 ， 只 能 执行 指令 系统 中 的 一 个 子 集 。 只 能 在 核心 模式 中 执行 的 指令 称 为 监督 、 特 权 或 者 保 
护 (supervisor，privileged，or protected) 指 令 ， 以 区 别 于 用 户 模式 下 执行 的 指令 。 可 信和 的 操作 系统 软件 是 在 核 
心态 执行 的 ， 而 所 有 其 他 的 软件 都 是 在 用 户 态 下 执行 的 。 例 如 ，LO 指令 是 特权 指令 ， 所 以 应 用 程序 自己 
不 能 直接 执行 I/O 操作 。 相 反 ， 它 是 请 求 操作 系统 来 执行 VO 操作 的 。 

模式 位 允许 我 们 对 资源 进行 独占 性 访问 。 假 定 只 能 由 可 信 软 件 来 说 明 对 资源 的 访问 ， 那 么 任何 特定 配 
置 只 能 按照 管理 员 的 方案 隔离 资源 或 者 进行 资源 共享 。 例 如 ， 处 理 器 使 用 硬件 寄存 器 来 标识 仅 可 被 运行 进 
程 访问 的 对 象 ( 见 图 3-5)。 当 进程 A 使 用 处 理 器 时 ， 寄 存 器 指向 A 自己 的 对 象 ， 而 进程 B 使 用 处 理 器 时 ， 
寄存 器 不 会 再 指向 A 对 象 。 寄 存 器 的 内 容 仅 可 被 特权 指令 修改 ， 也 就 是 说 只 有 核心 模式 的 程序 可 以 改变 对 
象 访问 规则 。 

系统 可 以 用 模式 位 来 定义 不 同 处理 器 模式 下 运行 的 程序 可 以 访问 的 存储 区 域 ， 在 核心 模式 下 运行 时 可 
以 访问 内 存 的 某 个 区 域 ， 而 在 用 户 模式 下 可 以 访问 另 - -个 区 域 (参见 图 3-6)。 如 果 模 式 位 设置 为 核心 模 
式 ， 则 处 理 器 上 执行 的 进程 可 以 访问 系统 区 或 用 户 区 的 空间 ; 如 果 为 用 户 模式 ， 则 只 能 在 用 户 区 访问 。 在 
操作 系统 的 讨论 中 ， 常 将 这 两 类 内 存 称 为 用 户 空间 (user space) 和 系统 空间 (system space) (或 监督 、 内 
核 、 保 护 空间 )。 





处 理 器 an 
进程 A 用 户 进程 空间 
进程 B 
Ge 一 
系统 
空间 
图 3-5 对 资源 的 独占 访问 
注 : 硬件 的 某 一 部 分 (如 图 中 的 对 象 指针 寄存 器 ) 图 3-6 ”系统 空间 和 用 户 空间 
可 以 使 用 特权 指令 进行 加 载 。 这 使 得 操作 系 注 : 系统 空间 是 主 存 的 一 个 子 集 ，CPU 仅 在 模式 位 被 
统 能 够 实现 对 资源 的 独占 性 访问 和 控制 。 设置 为 特权 模式 时 才 可 以 访问 那 部 分 内 存 。 ， 


通常 ， 模 式 位 扩展 了 操作 系统 的 保护 权限 (protection rights) 。 这 意味 着 操作 系统 在 核心 态 下 执行 时 ， 
比 在 用 户 态 下 有 更 多 的 权限 去 访问 内 存 和 执行 特权 指令 。 

由 于 模式 位 被 用 来 区 分 可 信 软 件 与 不 可 信 软 件 ， 我 们 需要 一 种 机 制 能 使 执行 在 用 户 模式 下 的 进程 可 
以 :〈1) 将 处 理 器 切换 到 核心 模式 ; (2) 开始 执行 操作 系统 代码 。 注 意 ， 无 论 什 么 时 候 处 理 器 切换 到 核心 
模式 ， 处 理 器 将 只 执行 操作 系统 代码 。 处 于 用 户 态 模式 的 软件 进行 系统 调用 时 ， 处 理 器 都 会 切换 到 核心 模 
式 下 。 模 式 位 可 以 在 用 户 模式 下 ， 通 过 自 陷 (trap) 指令 来 设置 ， 也 称 为 系统 调用 指令 (supervisor call in- 
struction) 。 该 指令 设置 模式 位 ， 并 且 转 移 到 系统 空间 中 的 一 个 固定 的 位 置 ， 它 类 似 于 一 个 硬件 中 断 。 关 于 
指令 操作 的 细节 我 们 将 在 第 4 章 中 讨论 。 操 作 系统 例 程 将 加 载 到 系统 空间 ， 而 用 户 程序 不 能 加 载 到 系统 空 
间 ， 所 以 能 对 系统 空间 明确 地 加 以 保护 。 由 于 系统 代码 在 系统 空间 ， 所 以 只 有 通过 自 陷 指令 才能 调用 系统 
代码 执行 。 当 操作 系统 完成 系统 调用 时 ， 它 要 在 返回 前 重 置 模式 位 为 用 户 模式 。 

过 去 的 计算 机 (如 Intel 8088/8086 处 理 器 ) 没有 模式 位 ， 因 而 ,它们 不 区 分 特权 指令 和 用 户 指令 。 结 
果 是 在 这 样 的 计算 机 中 ， 很 难 实现 一 个 健壮 的 资源 隔离 机 制 。 后 来 的 Ine 处 理 器 芯片 采取 了 模式 位 ， 特 
定 寄存 器 的 内 容 仅 可 通过 特权 指令 改变 。 新 的 Intel 处 理 器 向 上 兼容 8088/8086， 以 兼容 运行 基于 过 去 的 微 
处 理 器 而 编写 的 软件 。 这 种 兼容 性 通过 使 用 另 一 个 处 理 器 标志 位 来 实现 。 例 如 ， 在 80486 BK Pentium 上 就 
可 以 仿真 在 8086 处 理 器 上 开发 的 软件 ， 它 通过 一 个 处 理 器 标志 来 指示 Pentium 忽略 模式 位 ， 因 此 可 以 有 
效 地 执行 所 有 在 核心 模式 下 的 指令 。 


3.2.4 内 核 
现在 可 以 利用 可 信 软 件 和 处 理 器 模式 的 概念 一 起 来 对 操作 系统 内 核 的 特征 进行 解释 。 内 核 是 操作 系统 
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的 一 部 分 ， 是 作为 可 信和 软件 来 执行 的 (在 核心 模式 )。 内 核 提 供 了 机 制 来 确保 整个 操作 系统 的 安全 操作 。 
其 他 的 软件 (包括 操作 系统 的 一 部 分 ) 和 应 用 程序 是 在 用 户 模式 下 作为 不 可 信和 软件 来 运行 的 。 所 以 ,可 信 
软件 就 是 在 核心 模式 下 执行 的 软件 。 

有 一 部 分 操作 系统 运行 在 用 户 模式 ， 操 作 系 统 的 正确 执行 不 会 依赖 于 用 户 模式 那 部 分 系统 软件 的 正确 
执行 。 这 是 将 一 个 功能 增加 到 操作 系统 中 的 基本 设计 原则 : 判断 它 是 否 需 要 在 系统 内 核 中 实现 ， 如 果 它 是 
在 内 核 中 实现 ， 它 会 在 核心 模式 下 运行 ， 并 可 以 访问 内 核 的 其 他 部 分 ， 它 也 会 被 内 核 的 其 他 部 分 当 作 可 信 
的 软件 ; 如 果 它 是 在 用 户 模式 下 执行 实现 ， 那 么 它 就 不 能 访问 内 核 的 数据 结构 。 内 核 的 功能 可 能 相对 容易 
实现 ， 而 用 户 态 运行 程序 调用 它 时 的 自 陷 机 制 和 认证 通常 会 是 代价 高 昂 的 。 在 实际 系统 调用 中 系统 会 付出 
很 大 的 性 能 开销 (与 一 般 的 函数 调用 相 比 )。 


3.2.5 请求 获 得 操作 系统 服务 


在 用 户 模 式 下 执行 的 程序 可 以 用 两 种 技术 来 请 求 内 核 的 服务 ， 两 种 技术 都 依赖 于 自 陷 指 令 : 

m 系统 调用 

m 消息 传递 

图 3-7 中 总 结 了 系统 调用 与 消息 传递 间 的 差别 。 首 先 ， 假定 用 户 进程 希望 调用 一 个 特定 的 系统 函数 
(图 中 以 阴影 框 表示 )， 在 系统 调用 (system call) 方法 中 ， 用 户 进程 使 用 了 自 陷 指令 。 然 而 ， 应 用 程序 员 
不 必 知 道 自 陷 指 令 的 使 用 细节 ， 特 别 是 自 陷 使 用 了 指向 内 核 中 称 为 系统 调用 表 (trap table) 的 一 个 操作 
数 。 因 此 ， 操 作 系统 设计 者 提供 一 个 “存根 函数 ”(stub function) 库 ， 其 名 字 与 系统 调用 相同 。 


send(-+-+-,A,++-); 
receive(-+++,B, +++); 


send/receive 
‘i 





图 3-7 ”过 程 调用 和 消息 传递 操作 系统 
注 : 在 操作 系统 的 系统 调用 接口 中 ， 用 户 空间 程序 使 用 自 陷 指令 通过 操作 系统 系统 调用 表 来 调用 操作 系统 函数 。 
在 消息 传递 方法 中 ， 在 用 户 空间 执行 的 进程 使 用 send O 系统 调用 ， 它 将 一 个 消息 传递 到 操作 系统 进程 。 
操作 系统 进程 在 核心 态 下 执行 ， 并 将 结果 消息 返回 给 用 户 空间 执行 的 进程 。 


例如 ，POSIX fork () 系统 调用 在 库 中 有 一 个 对 应 的 fork () 存根 函数 (存根 函数 有 过 程 说 明文 
档 一 一 适当 的 数字 和 参数 类 型 ) ， 每 个 存根 函数 使 用 了 自 陷 指令 ， 通 过 系统 调用 表 调 用 操作 系统 函数 。 当 
应 用 程序 调用 存根 函数 时 ， 所 有 的 存根 函数 都 会 执行 自 陷 指令 ， 将 进程 切换 到 核心 模式 ， 然 后 通过 系统 调 
用 表 分 支 间接 进入 被 调 函 数 的 人 口 点 ( 见 图 3-8)。 当 操作 系统 函数 执行 完 后 ， 它 将 处 理 器 切换 到 用 户 模 
式 ， 然 后 将 控制 返回 给 用 户 进程 〈 像 一 个 普通 的 过 程 调用 返回 ) 。 在 应 用 程序 员 看 来 ， 系 统 调用 就 像 是 一 
个 普通 的 函数 调用 。 系 统 调用 的 更 多 细节 将 在 第 4 章 中 讨论 。 ， 

在 消息 传递 方法 中 ， 用 户 进程 首先 构造 一 个 消息 A， 用 来 描述 请 求 的 服务 ( 见 图 3-7)。 然 后 ， 它 使 用 
send () 系统 调用 将 消息 发 送 到 一 个 可 信 的 实现 目标 函数 的 内 核 进程 。 然 而 ， 内 核 进 程 必须 要 在 启动 或 恢 
复 之 后 才能 读 取 邮 箱 里 的 消息 (模式 位 已 设 定 为 核心 模式 )。 在 消息 传递 系统 中 ， 内 核 进 程 在 send () K 
数 执行 时 必定 会 被 激活 。send () 函数 有 效 地 执行 了 一 条 自 陷 指令 。 在 内 核 进 程 执行 系统 函数 时 ， 用 户 进 
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fork() { 


trap N_SYS_FORK() 


sys_fork(){ 





/*system function*/ 


} 






return; 


} 











图 3-8 使 用 自 陷 指令 的 系统 调用 
注 : 自 陷 指令 依赖 于 系统 调用 表 (存放 操作 系统 函数 人 口 地 址 )。 当 自 陷 指 令 被 执行 时 ， 按 照 系统 调用 号 确定 系 
统 调 用 表 中 的 表 项 ， 找 到 要 调用 操作 系统 函数 的 人 口 点 ， 然 后 进 人 函数 执行 。 


程 使 用 receive 操 作 来 等 待 请 求 服务 的 结果 。 当 操作 系统 进程 完成 工作 后 ， 它 会 发 送 消息 (图 3-7 中 的 B) 到 
用 户 进程 。 

两 种 不 同 的 实现 方法 使 得 操作 系统 行为 和 性 能 也 不 同 。 基 于 系统 调用 接口 实现 的 操作 系统 ， 要 比 通过 
进程 闻 消 息 传递 实现 的 操作 系统 效率 高 得 多 ， 这 种 效率 体现 在 一 条 自 陷 指令 的 执行 ， 比 进程 间 上 下 文 切 
换 、 消 息 形成 以 及 消息 拷贝 的 开销 要 小 得 多 。 

系统 调用 方法 有 一 个 有 趣 的 特性 ， 就 是 不 需要 额外 的 系统 ”用 户 空间 内 核 空间 
线程 ， 而 是 在 一 个 线程 需要 执行 内 核 代码 时 ， 从 用 户 模式 切换 
到 核心 模式 中 ; 当 系 统 调用 完成 时 ， 再 切换 回 用 户 模式 ( 见 图 
3-9)。 操 作 系统 没有 专门 的 内 核 线程 是 一 个 合理 的 模型 ， 但 操 
作 系 统 设计 者 常常 在 内 核 中 实现 几 个 内 核 线程 。 一 个 原因 是 操 
作 系 统 需 要 在 一 些 特定 的 情形 下 控制 计算 机 ， 如 果 没 有 内 核 线 
程 的 话 ， 实 现 起 来 可 能 相当 困难 。 例 如 ， 当 中 断 发 生 时 ， 内 核 
不 需要 任何 相关 联 的 用 户 进程 或 线程 就 可 以 开始 执行 。 图 3.9 执行 系统 调用 的 线程 

还 有 一 种 情况 ， 有 些 线程 是 普通 的 用 户 线程 ， 但 它们 看 起 注 : 当 线 程 执 行 系统 调用 时 ， 它 通过 自 陷 指令 
来 就 像 内 核 线 程 ， 这 些 线程 在 UNIX 中 称 为 守护 线程 。 当 不 同 进入 核心 模式 下 执行 ， 并 在 核心 模式 下 执 
的 外 部 条 件 被 满足 时 ， 系 统管 理 员 可 以 创建 守护 线程 (进程 ) 行 操作 系统 代码 。 当 系统 调用 功能 完成 
来 执行 特定 的 代码 。 在 典型 的 UNIX 配置 中 ， 有 打印 机 守护 线 时 ,操作 系统 重 置 模 式 位 为 用 户 模式 ， 转 
程 (进程 ) 来 充分 利用 打印 机 ， 网 络 守护 线程 (进程) 来 接收 移 到 用 户 空间 中 的 返回 地 址 。 

网 络 中 的 数据 包 等 。 守 护 线程 (进程 ) 是 用 户 空间 线程 ， 它 只 
用 来 实现 一 些 操作 系统 的 功能 。 实 际 上 就 是 将 原来 内 核实 现 的 功能 外 移 。 


3.2.6 软件 模块 化 


在 3.1 节 中 ,介绍 了 4 类 不 同 的 管理 功能 ， 这 暗示 着 操作 系统 可 以 将 每 类 功能 设计 成 单独 的 软件 模 
块 。 基 于 这 些 假定 ， 图 3-10 说 明了 操作 系统 模块 间 存 在 的 大 量 交互 〈 模 块 间 的 连 线 表示 相互 作用 )。 在 醒 
件 处 理 器 之 上 ， 进 程 管理 器 建立 了 进程 定义 和 执行 环境 ， 它 也 使 用 了 其 他 资源 管理 器 产生 的 抽象 。 

存储 管理 器 的 主要 责任 就 是 管理 计算 机 的 主 存储 器 〈 又 称 内 存 )。 然 而 ， 如 果 操 作 系统 支持 虚拟 存储 ， 
它 必 须 与 进程 管理 器 交互 来 协作 管理 内 存 分 配 与 调度 活动 。 在 许多 当代 的 文件 系统 中 〈 例 如 UNIX 和 
Windows 操作 系统 ) ， 在 线程 请 求 文件 之 前 ， 文 件 管理 器 预先 将 信息 从 存储 设备 上 读 取出 来 ， 这 能 极 大 地 
提高 性 能 ， 这 种 方法 称 为 缓冲 (buffering) (在 第 5 章 中 有 更 多 关于 缓冲 的 信息 )。 缓 冲 需要 文件 管理 器 和 
存储 管理 器 协调 它们 的 活动 来 对 文件 进行 输入 /输出 。 

除了 与 存储 管理 器 的 交互 外 ,文件 管理 器 也 经 常 与 设备 管理 器 进行 交互 ， 因 为 它 经 常 要 读 写 外 存储 设 
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图 3-10 ”逻辑 操作 系统 组 织 结构 
注 : 逻辑 上 ， 操 作 系统 由 进程 管理 器 、 存 储 管理 器 、 设 备 管理 器 和 文件 管理 器 组 成 。 每 个 管理 器 常常 需要 读 写 
其 他 管理 器 所 拥有 的 数据 结构 。 因 为 要 遵照 逻辑 模块 间 建 议 的 接口 ， 这 为 实现 高 性 能 的 内 核 带 来 了 困难 。 


备 。 正 如 在 上 一 段 中 所 说 的 ， 文 件 管理 器 要 与 存储 管理 器 进行 交互 来 处 理 缓冲 输入 /输出 操作 。 

设备 管理 器 还 要 与 硬件 设备 进行 交互 。 因 为 文件 保存 在 外 存储 设备 上 ， 文 件 管理 器 与 设备 管理 器 也 有 
很 多 交互 。 传 统 的 计算 机 充分 利用 了 中 断 驱动 的 设备 操作 ( 见 第 4 章 )。 更 好 地 处 理 中 断 ， 在 设备 管理 器 
和 进程 管理 器 间 也 有 频繁 的 交互 。 

操作 系统 设计 者 也 处 于 两 难 境地 : 可 以 根据 操作 系统 的 4 个 基本 功能 分 类 来 对 它们 进行 模块 化 ， 因 为 
每 一 类 管理 器 都 有 大 量 的 数据 结构 ， 它 们 仅 能 被 模块 的 成 员 函 数 所 操作 。 模 块 间 的 交互 可 以 使 用 抽象 数据 
类 型 接口 (如 类 接口 ) 来 实现 。 操 作 系 统 是 由 很 多 这 样 的 软件 模块 组 成 的 ， 由 于 操作 系统 会 被 频繁 地 修 
改 ， 所 以 对 这 样 的 模块 化 结构 有 很 强 的 呼声 。 

历史 上 ， 操 作 系 统 设计 者 为 了 满足 性 能 需求 ， 明 显 地 违反 了 模块 化 设计 原则 ( 伴 有 很 多 软件 工程 方法 
学 )。 最 明显 的 例子 就 是 UNIX 操作 系统 的 内 核实 现 ; 4 个 基本 的 模块 合成 了 一 个 单个 软件 模块 一 一 UNIX 
内 核 (UNIX 中 所 有 的 可 信 软 件 在 一 个 巨大 的 模块 中 实现 )。 因 为 操作 系统 组 件 间 有 频繁 的 交互 (文件 管 
理 器 与 设备 管理 器 、 进 程 管理 器 与 存储 管理 器 等 )， 设 计 者 考虑 到 性 能 问题 而 采取 了 上 述 设计 方法 。 为 了 
避免 模块 间 的 调用 开销 ， 单 一 模块 实现 使 得 一 个 逻辑 模块 的 函数 可 以 直接 访问 另 一 模块 内 的 数据 结构 。 这 
样 的 内 核 代码 组 织 极 不 合理 ， 改 变 内 核 中 进程 管理 器 的 某 行 代码 可 能 会 很 容易 地 破坏 掉 存储 管理 器 。 

从 20 世纪 70 年 代 到 90 年 代 ， 出 于 速度 的 需要 ， 单 一 内 核 组 织 结构 一 直 是 操作 系统 主要 的 实现 方法 。 
到 1990 年 ， 操 作 系统 研究 人 员 找 到 了 一 种 单一 内 核 组 织 结构 的 替代 方法 : 微 内 核 方 法 。 这 种 方法 的 提出 
是 因为 以 前 的 内 核 太 大 了 。 微 内 核 做 得 尽量 小 ， 只 把 必须 要 做 到 可 信 的 功能 放 到 内 核 中 ， 其 他 功能 实现 在 
内 核 外 面 。 例 如 ， 微 内 核实 现 了 线程 调度 、 硬 件 设备 管理 、 基 本 的 保护 机 制 和 一 些 其 他 的 基本 功能 。 进 
程 、 内 存 、 文 件 、 设 备 管理 的 其 余部 分 是 在 用 户 空间 内 实现 的 ， 可 以 通过 系统 调用 进入 微 内 核 。 

因为 要 保持 微 内 核 尽 可 能 小 ， 为 了 使 操作 系统 功能 有 效 地 执行 ， 用 户 空间 的 函数 将 需要 多 次 系统 调用 
进入 微 内 核 。 每 次 调用 和 传统 内 核 的 系统 调用 开销 相同 ， 所 以 微 内 核 的 额外 开销 非常 大 。 在 20 世纪 90 年 
代 ， 操 作 系统 研究 人 员 讨 论 的 最 热烈 问题 是 : 微 内 核 是 否 可 以 被 设计 得 足够 快 使 得 额外 开销 变 得 无 足 紧 
要 。 在 这 段 时 间 ， 提 倡 微 内 核 的 研究 论文 都 着 重 在 使 用 微 内 核 的 开销 上 而 不 是 它 的 功能 上 (A [Liedtke， 
1995; Ford, etal., 1996]), 

操作 系统 设计 和 实现 有 许多 细节 性 的 方面 需要 考虑 。 在 你 理解 操作 系统 的 基本 功能 之 前 进行 这 些 细节 
性 的 考虑 并 不 能 体现 其 意义 。 在 第 19 章 ， 在 学 习 完 所 有 的 操作 系统 细节 之 后 ， 我 们 将 回 到 操作 系统 的 实 
现 和 模块 化 组 织 上 来 。 


3.3 当代 的 操作 系统 内 核 


现在 ， 主 要 的 商业 操作 系统 是 UNIX 和 微软 的 Windows 操作 系统 。 本 书 从 这 两 个 操作 系统 家 族 中 选取 
了 很 多 例子 来 解释 操作 系统 的 一 般 概念 。 这 一 节 描 述 了 UNIX 内 核 和 Windows NT 内 核 (被 用 在 Windows 
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NT. Windows 2000 和 Windows XP 中 ) 的 一 般 组 织 结构 。 

UNIX 是 作为 分 时 系统 来 设计 的 。 它 的 两 个 开发 版 本 ，BSD 和 AT&T 版 本 ， 仍 然 是 分 时 系统 。 由 于 
UNIX 的 可 移植 和 分 时 系统 特点 ， 所 以 它 广泛 使 用 在 小 型 机 和 工作 站 上 。 相 反 ， 个 人 计算 机 软件 环境 刚 开 
始 是 由 微软 的 DOS 操作 系统 主导 ， 现 在 则 是 微软 的 Windows 操作 系统 。 这 可 能 是 因为 微软 产品 设计 者 与 
主宰 个 人 计算 机 的 硬件 英特尔 (Intel) 微 处 理 器 和 IBM PC 的 密切 关系 的 缘故 吧 。 尽 管 UNIX 最 先 支 
持 多 道 程序 设计 和 网 络 技术 ，Windows 操作 系统 却 应 用 得 更 广泛 。 在 写作 本 书 之 际 ， 程 序 员 和 用 户 通常 都 
选择 Windows 98/Me 和 Windows NT/2000/XP， 或 UNIX 的 某 个 版 本 。 最 终 ， 商 用 操作 系统 将 集中 于 一 种 
解决 方案 ， 当 然 市 场 还 很 可 能 会 继续 支持 两 种 或 多 种 替代 产品 。 无 论 如 何 ， 市场 或 其 他 商业 上 的 考虑 (而 
不 是 技术 ) 将 最 终 决定 操作 系统 的 发 展 趋势 。 

UNIX 和 Windows 操作 系统 的 成 功 严 重地 制约 了 操作 系统 技术 的 继续 发 展 。 为 了 成 功 地 开发 一 种 新 的 
操作 系统 ， 必 须要 有 语言 处 理 器 (如 编译 器 、 链 接 器 和 加 载 器 ) 、 文 本 编辑 器 和 运行 时 库 的 支持 。 新 的 操 
作 系 统 的 实现 不 仅 要 包含 尽 可 能 多 的 革新 ， 还 要 能 使 Windows 或 UNIX 上 的 系统 软件 和 应 用 软件 也 能 在 它 
上 面 运行 。 现 在 ， 研 究 操 作 系 统 仍然 是 遵循 着 这 个 趋势 : 实现 UNIX 操作 系统 的 一 个 变种 。 在 商业 方面 ， 
虚拟 机 (如 Java 虚拟 机 和 微软 通用 语言 运行 时 系统 ) 开始 定义 一 组 与 操作 系统 无 关 的 系统 调用 接口 〈 见 第 
19 章 )。 


3.3.1 UNIX 内 核 


UNIX 内 核 是 在 20 世纪 70 年 代 早 期 在 贝尔 实验 室 [Ritchie and Thompson, 1974] 开发 出 来 的 ， 它 是 
用 来 作为 小 型 计算 机 的 操作 系统 。UNIX 是 一 个 分 时 操作 系统 ， 它 在 DEC 公司 16 位 的 PDOP- 11 小 型 计算 
机 家 族 上 广泛 使 用 。UNIX 操作 系统 的 设计 者 参加 了 Multics 项 目的 设计 ， 所 以 其 主要 设计 决策 是 构建 一 
个 健壮 的 操作 系统 ， 它 需要 特定 的 硬件 来 实现 分 段 和 保护 (Multis 也 是 这 样 实现 的 ， 见 第 12 章 )。 和 
Multics 相 比 ，UNIX 采取 了 一 个 稳当 的 设计 方法 。 它 意识 到 了 硬件 速度 慢 的 限制 ， 实 现 了 最 少 的 功能 集 。 
例如 ，UNIX 版 本 6 和 它 的 以 前 版 本 使 用 的 是 交换 技术 而 不 是 虚拟 存储 技术 。UNIX 系统 在 1973 年 开始 应 
用 在 商业 上 ， 它 被 认为 是 操作 系统 的 另 一 个 发 展 趋势 。 它 的 独特 性 在 于 它 的 简单 文件 系统 、 管 道 、 简 洁 的 
FAP AR (shell) 和 可 扩展 的 设计 。 

UNIX 的 设计 思想 是 : 在 内 核 中 实现 进程 、 内 存 、 文 件 和 设备 管理 ， 但 是 仅仅 实现 最 小 的 功能 集 。 操 
作 系 统 可 以 通过 增加 特定 的 系统 和 应 用 软件 来 解决 特定 应 用 域内 的 一 些 问 题 。 例 如 ， 内 核 仅 实现 字 节 流 文 
件 ， 但 是 大 多 数 的 应 用 最 后 需要 将 信息 作为 结构 
化 的 记录 存储 在 文件 中 。 基 本 原理 就 是 : 内 核 将 
提供 基本 的 机 制 来 读 写字 节 流 ， 而 库 软 件 (如 
stdio PE) 可 以 在 需要 时 将 字 节 流 组 织 成 结构 化 的 K 
记录 。 那 么 整个 文件 处 理 的 三 个 层次 是 : 在 内 核 a 
中 实现 的 字 节 流 ， 在 库 中 用 来 格式 化 输入 /输出 的 i 
中 间 层 和 应 用 使 用 的 特定 记录 。 

传统 的 UNIX 内 核 及 Linux 是 作为 单 内 核 模 
块 来 实现 的 〈 见 图 3-11)。 核 心 提供 了 最 少 的 资源 
管理 (进程 、 内 存 、 文 件 和 设备 管理 )。 设 计 最 少 
的 管理 设施 使 得 可 以 对 它们 进行 扩展 ， 用 来 建立 








一 个 特定 的 计算 环境 。 例如， 在 第 2 章 , 你 可 以 
看 到 如 何 建立 一 个 shell 来 为 操作 系统 提供 一 个 可 
定制 的 系统 控制 台 界 面 。 如 此 设计 决策 的 依据 是 : 





UNIX 开发 者 也 是 一 个 应 用 程序 员 ， 扩展 操作 系 图 3-11 UNIX 体系 结构 
统 相 对 来 说 比较 容易 。 开 发 者 努力 工作 实现 一 个 ” 注 : UNIX 是 单一 内 核 系 统 ， 这 意味 着 进程 、 内 存 、 设 
正确 的 、 安 全 的 、 最 小 化 的 内 核 ， 然 后 他 们 可 以 备 和 文件 管理 都 在 一 个 单一 软件 模块 中 实现 。 设 备 


很 快 而 且 不 用 花费 很 多 精力 就 可 完成 用 户 空间 应 管理 的 设备 驱动 程序 部 分 是 在 单独 的 模块 中 实现 
用 (如 shell), 的 ,但 是 所 有 其 他 的 管理 器 是 一 个 大 程序 。 
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实际 上 ，UNIX 设计 者 是 在 实验 环境 下 工作 的 ， 他 们 常常 需要 从 计算 机 上 添加 和 删除 设备 。 在 那 时 ， 
无 论 什 么 时 候 设备 被 添加 ， 都 要 对 操作 系统 做 轻微 的 修改 然后 对 它们 重新 编译 。 这 启发 了 操作 系统 设计 者 
将 设备 驱动 和 内 核 的 其 余部 分 区 分 开 来 。UNIX 内 核 导 出 了 一 组 仅 可 被 设备 驱动 程序 员 使 用 的 API (第 5 
章 有 更 详细 的 讨论 )。 和 简单 地 说 ， 驱 动 程序 与 内 核 的 接口 依赖 于 设备 驱动 程序 具有 的 标准 名 字 的 人 口 点 ， 
但 是 它们 的 位 置 可 由 /dev 目录 中 的 文件 信息 所 决定 。 内 核 使 用 设备 文件 名 来 搜索 /dev 并 将 设备 号 (可 从 
相应 的 特定 文件 得 到 ) 关联 到 一 个 固定 的 人 人 口 点 名 字 。 这 人 允许 使 用 一 个 标准 的 动态 绑 定 的 名 字 来 调用 设备 
驱动 程序 的 函数 。 今 天 ， 这 种 可 再 配置 设备 驱动 程序 思想 被 用 于 几乎 所 有 的 操作 系统 实现 中 。 

UNIX 开发 人 员 处 于 这 样 的 开发 环境 中 : 他们 的 计算 机 来 自 不 同 的 硬件 厂商 。 他 们 的 目标 就 是 开发 一 
个 新 的 操作 系统 ， 使 得 它 可 以 移植 到 实验 室 的 任何 硬件 平台 上 。 这 也 是 设计 小 内 核 的 一 个 重要 动机 。 另 一 
个 有 趣 的 结果 是 : 他 们 想 要 内 核 尽 可 能 小 和 有 效 ， 他 们 决定 将 操作 系统 实现 为 单一 软件 模块 而 不 是 作为 大 
量具 有 良好 接口 的 模块 集合 。 最 初 的 UNIX 内 核 比 较 小 而 且 是 非常 有 效 的 。 

WE, UNIX 被 广泛 地 使 用 ， 特 别 是 在 一 些 大 型 系统 上 。 经 过 这 么 多 年 的 发 展 ， 内 核 已 经 得 到 扩展 并 
采用 了 一 些 最 新 技术 。 例 如 ， 到 1990 年 ， 几 乎 所 有 的 UNIX 已 经 从 交换 系统 发 展 到 分 页 系统 。 进 程 管理 
已 经 被 更 新 用 于 支持 多 处 理 器 和 分 布 式 硬件 配置 。 内 核 现在 支持 图 形 设备 和 网 络 协 议 。 原 来 的 内 核 已 经 被 
扩展 、 移 植 、 重 新 实现 了 很 多 次 ， 但 仍然 保持 着 单一 内 核 结构 。 今 天 的 商业 上 用 的 UNIX 内 核 十 分 巨大 和 
复杂 。 由 于 内 核 不 同 部 分 的 紧 兢 合 使 得 大 多 数 实 现 难于 修改 。 现 在 ,在 UNIX 环境 中 使 用 模块 化 设计 方法 
的 呼声 越 来 越 高 。 

Ski, UNIX 应 用 程序 接口 已 经 非常 明确 ， 它 已 变 成 了 IEEE POSIX.1 开放 系统 标准 的 基础 。 有 两 个 
可 供 选择 的 方法 用 来 支持 传统 的 UNIX 系统 调用 接口 ; 单 内 核 方法 或 内 核 完 全 重新 设计 ， 如 Mach 2 扩展 
内 核 和 Mach 3 微 内 核 方 法 。 





示例 : Linux 

Linux 是 一 个 新 的 操作 系统 ， 它 是 UNIX 的 开放 源 代 码 实现 ， 可 以 在 Internet 上 免费 得 到 。Linux 的 可 
用 性 和 广泛 应 用 使 得 它 具 有 十 分 重大 的 意义 : Linux 是 一 个 分 时 操作 系统 、 是 一 个 个 人 计算 机 和 工作 站 操 
ERR, RARER, WE SCC 操作 系统 和 网 络 操作 系统 。 尽 管 Linux 是 免费 的 ， 你 也 可 以 从 不 同 的 
公司 购买 一 些 商业 化 的 Liunx 版 本 。 自 从 Linux 在 1991 年 出 现 以 来 ，Linux 变 成 了 一 个 受 人 尊敬 、 极 为 健 
壮 的 UNIX 实现 版 本 。 作 为 研究 现代 操作 系统 的 平台 ， 特 别 用 于 研究 内 核 的 内 部 行为 ， 它 取得 了 极 大 的 成 
功 。 

在 1991 Æ, Linus Torvalds 开始 开发 Linux 的 第 一 个 版 本 (TE 1991 年 comp.os.minix 新 闻 组 收 到 了 来 
自 Torvalds 的 一 些 消 息 ， 他 宣告 了 他 正在 研究 POSIX 的 一 个 公共 实现 )。 明 显 地 ， 他 是 受到 Tanenbaum 的 
MINIX [Tanenbaum, 1987] 成 功 的 激励 。 但 是 他 打算 要 让 他 的 操作 系统 比 MINIX 更 健壮 、 更 有 用 。Tor- 
valds 发 布 了 他 的 Linux 源 代码 给 任何 想 要 使 用 它 的 人 〈 可 以 通过 GNU 公共 许可 证 在 Internet 上 免费 使 
用 )。 它 因为 提供 POSIX 系统 调用 接口 很 快 流行 开 来 。 不 久 ， 各 地 的 爱好 者 开始 对 Torvalds 的 代 公 进行 修 
改 和 改进 。 今 天 ，Linux 的 发 布 ， 包 括 操作 系统 和 大 量 的 工具 包 ， 都 是 由 许多 不 同 的 爱好 者 来 开发 的 。 
Linux 不 仅 支持 Intel 80386/80486/80586 系列 处 理 器 (也 称 “x86” 或 者 “i386”)， 而 且 也 支持 DEC/Com- 
paq/HP Alpha, Sun Sparc, Motorola 68K, MIPS 和 PowerPC 等 。 到 1996 年 ，Linux 已 经 变 成 了 一 个 重要 的 
操作 系统 。 到 1997 年 ， 它 已 经 变 成 了 商业 操作 系统 的 一 一 个 重要 部 分 ， 同 时 它 继续 扮演 着 UNIX 接 口 开 放 源 
代码 实现 的 角色 。 

Linux 是 作为 单一 内 核 来 设计 的 〈 见 图 3-11), 但 是 它 使 用 了 新 的 方法 来 扩展 操作 系统 功能 ，Linux 支 
持 动态 可 安装 模块 。 模 块 可 以 在 内 核 运 行 时 进行 编译 和 安装 ， 这 是 通过 系统 调用 来 完成 安装 /去 除 模块 的 。 
模块 常常 用 来 实现 设备 驱动 程序 ， 尽管 程序 员 可 使 用 模块 来 实现 任何 想 要 的 功能 (只 要 他 们 遵循 内 核 的 说 
明 来 注册 他 们 的 函数 ) 。 ` 
E 
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3.3.2 Windows NT 执行 体 和 内 核 


Windows NT 执行 体 和 内 核 被 开发 作为 个 人 计算 机 和 工作 站 操作 系统 ， 它 为 个 人 计算 机 和 工作 站 提供 
了 一 个 现代 的 计算 环境 。 内 核 技 术 起 初 被 用 在 Windows NT 操作 系统 产品 中 ， 继 而 被 用 于 Windows 2000, 
现在 被 用 于 Windows XP. Windows NT 开发 人 员 是 有 经 验 的 操作 系统 开发 人 员 ， 他 们 来 自 不 同 的 公司 、 大 
学 和 研究 机 构 。 

Windows NT 内 核 的 目标 是 : 用 于 现代 计算 机 (包含 对 称 多 处 理 机 ) 上 的 可 扩展 的 、 可 移植 的 、 可 靠 
的 、 安 全 的 操作 系统 [Solomon and Russinovich，2000]。 这 些 术语 意味 着 很 多 的 东西 ， 下 面 介绍 它们 如 何 
影响 最 初 的 操作 系统 设计 。 

可 扩展 性 : 有 两 个 尺度 来 衡量 可 扩展 性 。 第 一 个 与 操作 系统 配置 相关 。Windows NT/2000/XP 可 以 配 
置 在 工作 站 上 ， 也 可 配置 在 服务 器 上 。 在 任何 一 种 配置 中 ， 操 作 系统 使 用 相同 的 源 代 码 ， 但 是 在 编译 时 采 
用 了 不 同 的 组 件 。 可 以 根据 机 器 是 作为 工作 站 还 是 服务 器 使 用 ， 来 对 Windows NT/2000/XP 进行 优化 使 其 
更 有 效 地 执行 一 一 不 用 构建 两 个 不 同 的 操作 系统 。 

第 二 个 是 操作 系统 构建 的 方式 ， 这 可 能 是 操作 系统 可 扩展 性 最 重要 的 方面 。Windows NT/2000/XP 是 
使 用 可 扩展 核子 (nucleus) 软件 模型 来 设计 的 。 在 这 种 设计 方法 中 ， 在 小 的 核子 代码 模块 (相当 于 微 内 
核 ) 中 仅 实 现 一 些 基 本 的 操作 系统 功能 。 额 外 的 功能 可 以 根据 需要 在 核子 代码 模块 之 上 来 实现 。 这 种 方法 
有 一 个 优点 : 关键 的 机 制 〈 如 保护 机 制 ) 可 以 作为 可 信 的 子 组 件 细心 地 设计 和 测试 ， 它 可 用 来 实现 许多 不 
同 的 策略 。 这 是 支持 安全 和 可 靠 性 操作 的 一 个 基本 方法 。 

NT 内 核 提供 了 一 些 基本 的 底层 机 制作 为 从 硬件 抽象 出 来 的 层次 〈 见 图 3-12)。NT 执行 体 是 作为 NT 
内 核 的 一 个 抽象 层 而 设计 的 。 它 提供 了 一 般 的 对 象 和 存储 管理 、 进 程 管理 、 文 件 管理 和 设备 管理 。NT 内 
核 和 NT 执行 体 提 供 了 操作 系统 的 基本 元 素 ， 尽 管 它 还 可 以 通过 子 系统 进行 扩展 (将 在 以 后 解释 )。 


CEP 
进程 管理 
存储 管理 


文件 管理 
设备 管理 基础 














NT 执行 体 


硬件 抽象 层 


图 3-12 Windows NT/2000/XP 组 织 结构 
注 : Windows NT 操作 系统 体系 结构 逻辑 上 是 分 层 的 ; 硬件 抽象 层 (HAL) 、NT 内 核 、NT 执行 体 和 NT 执行 体 
之 上 的 各 种 不 同 子 系统 。 系 统 调用 接口 是 由 Win 32 子 系统 提供 的 Win32 API。I/O 子 系统 包括 了 设备 驱动 
程序 ， 它 与 操作 系统 内 核 的 其 余部 分 是 分 离 的 。 


尽管 NT 内 核 和 NT 执行 体 是 作为 不 同 的 软件 模块 来 设计 和 实现 的 , 但 是 ， 它 们 在 编译 成 机 器 代码 时 
是 一 起 被 组 合成 单个 的 可 执行 映 象 的 【Solomon and Russinovich，2000]。 这 个 映 象 也 可 以 在 需要 时 调用 另 
外 的 动态 链接 库 (DLL). FA Windows NT/2000/XP 的 逻辑 视图 与 实际 出 现在 内 存 的 操作 系统 代码 不 同 。 
逻辑 视图 看 上 去 是 一 种 模块 结构 ， 而 实际 操作 系统 是 单一 内 核 代码 。 

Windows NT/2000/XP 的 下 一 个 抽象 层 是 子 系统 层 。 子 系统 为 Windows 软件 的 移植 提供 了 方便 。 一 个 
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Windows 子 系统 是 一 个 软件 模块 ， 它 使 用 了 NT 内 核 和 NT 执行 体 里 的 服务 来 实现 了 更 多 的 抽象 服务 。 例 
如 ，Windows NT 4.0 版 本 有 一 个 POSIX 子 系统 ， 它 在 内 核 和 执行 体 之 上 执行 ， 它 使 得 Windows NT/2000/ 
XP 看 起 来 很 像 POSIX。 这 样 的 子 系统 叫做 环境 子 系统 (environment subsystems) 或 者 个 性 模块 (personali- 
ty modules) 。 其 他 的 子 系统 实现 了 特定 的 服务 ， 如 安全 子 系统 。 所 有 的 子 系统 (和 使 用 子 系统 的 所 有 应 用 
程序 ) 都 在 处 理 器 处 于 用 户 模式 时 执行 。 子 系统 是 一 个 关键 的 组 件 ， 它 可 以 支持 不 同 的 计算 模型 ， 如 MS 
一 DOS 和 Win16 程序 模型 。 在 MS-DOS 上 运行 的 应 用 程序 可 以 使 用 MS - DOS 子 系统 接口 运行 在 Win- 
dows NT 上 。 子 系统 为 应 用 程序 提供 了 和 MS-DOS 相同 的 API， 因 此 ， 人 允许 MS-DOS 程序 运行 在 Win- 
dows 2000 系统 上 。 : 

可 移植 性 : Windows NT 的 可 移植 性 与 可 扩展 性 重合 。 子 系统 可 以 对 操作 系统 进行 扩展 来 满足 不 同 的 
应 用 需求 ， 它 们 也 是 可 移植 性 的 基础 (因为 子 系统 可 以 使 得 为 其 他 操作 系统 写 的 应 用 程序 很 容易 移植 到 
Windows NT 上 )。 正 如 上 面 所 提 到 的 ， 微 软 开 发 了 不 同 的 子 系 统 来 满足 客户 的 特定 需求 。 一 般 来 说 ， 软 件 
开发 商 可 以 实现 任何 子 系统 来 满足 他 们 对 操作 系统 服务 的 需求 。 不 过 Win32 子 系统 在 Windows NT 中 非 同 
一 般 ， 因 为 它 实现 了 对 Windows NT 执行 体 的 扩展 ， 很 多 其 他 的 子 系统 需要 使 用 它 。 每 个 子 系统 都 依赖 于 
Win32 子 系统 的 存在 。 尽 管 可 以 添加 一 些 其 他 的 环境 子 系统 到 Windows NT 中 ,但 Win32 子 系统 必须 存 
在 。 

可 移植 性 的 另 一 个 意思 是 : 可 以 将 操作 系统 移植 到 不 同 的 硬件 平台 上 。 微 软 的 目标 是 能 在 新 的 处 理 器 
上 重用 NT 内 核 、NT 执行 体 和 子 系统 ， 使 得 不 用 对 它们 进行 重 写 就 可 以 使 用 它们 。Windows NT/2000/XP 
设计 的 一 个 目标 就 是 可 移植 的 。Windows NT 设计 者 对 那些 可 以 由 所 有 处 理 器 共用 的 代码 ， 和 那些 对 不 同 
处 理 器 不 同 的 代码 进行 了 严格 标识 。 他 们 使 用 了 硬件 抽象 层 (HAL) 软件 模块 ， 这 样 ，NT 内 核 (和 操作 
系统 的 其 余部 分 ) 就 不 用 关注 硬件 间 的 区 别 了 。HAL 负责 将 NT 内 核 和 执行 体 使 用 的 固定 接口 映射 到 底层 
的 、 与 处 理 器 相关 的 操作 。HAL 是 在 核心 模式 下 执行 的 。 

HAL, NT 内 核 和 NT 执行 体 是 核心 模式 的 软件 ， 它 们 一 起 为 子 系统 的 设计 者 (不 是 应 用 程序 员 ) 提 
供 了 一 组 API。 环 境 子 系统 设计 者 选择 要 实现 的 目标 API (如 Win16、POSIX 或 OS/2 APD， 利 用 Win 
2000 的 内 核 模式 部 分 提供 的 系统 功能 来 构建 一 个 子 系统 ， 实 现 目标 API。 如 Win32 子 系统 提供 了 一 组 
API， 它 是 Windows 系统 调用 的 一 组 接口 函数 。Windows NT/2000/XP 应 用 程序 使 用 Win32 API 而 不 是 内 
核 和 执行 体 提供 的 接口 。 

可 靠 性 和 安全 性 : Windows NT/2000/XP 的 可 靠 性 和 安全 性 需求 反映 在 NT 内 核 和 执行 体 的 设计 和 实 
现 细节 上 (不 是 它们 整个 的 组 织 结构 )。 可 靠 性 是 通过 将 HAL、 内 核 、 执 行 体 和 子 系统 功能 彼此 分 离 而 获 
得 的 ， 它 消除 了 不 必要 的 交互 。Windows NT 中 使 用 的 软件 设计 技术 更 进一步 加 强 了 可 靠 性 。 

Windows NT/2000/XP 是 作为 现代 的 可 信 操 作 系统 而 设计 的 。 安 全 机 制 是 在 安全 子 系统 中 实现 的 ， 它 
依赖 于 NT 执行 体 中 的 安全 引用 管理 器 (Security Reference Manager) o 正 是 这 些 安 全 机 制 的 存在 使 得 建立 
安全 系统 成 为 可 能 。 如 果 应 用 软件 不 使 用 这 些 安全 机 制 的 话 ， 整 个 系统 可 能 不 太 可 靠 (大 多 数 的 软件 产品 
不 使 用 保护 机 制 ) 。 


3.4 小 结 


操作 系统 定义 了 一 个 支持 应 用 程序 的 计算 环境 ， 该 环境 实现 了 进程 、 资 源 ， 以 及 管理 进程 使 用 资源 的 
功能 。 资 源 包括 处 理 器 、 存 储 器 以 及 各 种 硬件 和 软件 的 抽象 。 除 实现 对 操作 系统 的 基本 要 求 外 ， 其 他 一 些 
详细 的 要 求 也 必须 得 到 满足 。 所 有 功能 软件 都 会 有 性 能 开销 ， 因 而 一 个 功能 的 实现 价值 必须 要 通过 性 能 开 
销 来 衡量 。 所 有 功能 的 设计 和 实现 都 必须 仔细 检查 ， 以 确保 有 高 的 性 能 。 操 作 系统 必须 能 够 提供 一 个 安全 
的 共享 环境 ， 其 中 一 个 进程 不 能 干扰 男 一 个 进程 的 执行 ,或 者 访问 已 占有 的 资源 。 

现代 操作 系统 包含 了 进程 和 资源 的 管理 器 ， 包括 有 专门 用 于 存储 器 、 文 件 和 设备 的 管理 器 。 基 本 功能 
的 模块 化 源 于 历史 上 的 原因 ， 而 不 是 合理 的 软件 模块 化 原则 。 但 它 已 经 建立 起 来 了 ， 因 而 在 一 段 时 间 内 这 
种 基本 模块 结构 不 大 可 能 改变 。 

现代 操作 系统 的 实现 技术 依赖 于 一 些 基础 技术 。 当 代 处 理 器 包含 了 一 个 模式 位 ， 多 许 处 理 器 在 核心 模 
式 或 者 用 户 模式 下 运行 。 如 果 处 在 用 户 模式 下 的 处 理 器 希望 设置 模式 位 为 核心 模式 ， 它 必须 执行 一 个 特殊 
的 自 陷 指 令 来 设置 模式 位 ， 然 后 才 转 到 系统 代码 执行 。 如 果 是 处 在 核心 模式 中 的 处 理 器 ， 不 需要 特殊 的 动 
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作 就 可 以 设置 模式 位 到 用 户 模式 。 操 作 系统 中 在 核心 模式 中 执行 的 那 部 分 ， 称 之 为 内 核 。 一 些 现 代 操 作 系 
统 使 用 系统 调用 接口 ， 可 以 使 应 用 进程 在 核心 模式 下 执行 操作 系统 软件 。 另 一 种 操作 系统 设计 设立 一 些 单 
独 的 运行 操作 系统 功能 的 进程 ， 它 们 通过 使 用 消息 传递 机 制 与 应 用 进程 相互 作用 。 


3.5 习题 


1. 当 介 绍 自 陷 指令 时 ， 建 议 用 户 程序 不 要 直接 使 用 特定 系统 调用 函数 的 系统 调用 表 索 引 值 〈( 即 系统 
调用 号 ) ， 解 释 一 下 为 什么 不 提倡 用 户 程序 涉及 系统 调用 表 索 引 处 理 。 

2. 罗列 应 用 程序 执行 普通 的 过 程 调 用 和 执行 系统 调用 间 的 区 别 。 

3. 假定 操作 系统 为 一 组 工作 站 提供 了 消息 传送 机 制 。 解 释 一 下 如 何 基于 这 种 机 制 实现 一 个 共享 存储 
环境 。 讨 论 一 下 ， 为 什么 这 种 实现 可 能 是 一 个 好 的 思想 。 

4. 最 初 的 IBM PC 机 及 其 克隆 机 使 用 Intel 8088/8086 微 处 理 器 ， 它 没有 包含 用 于 表示 核心 模式 和 用 户 
模式 的 模式 位 ， 从 而 在 需要 的 时 候 ， 任 何 应 用 程序 (使 用 汇编 语言 编写 的 ) 都 可 以 加 载 段 寄存 器 。 
假定 一 个 C 程序 调用 一 个 汇编 语言 过 程 ， 这 个 过 程 将 一 个 新 的 值 写 到 堆栈 段 寄存 器 。 当 过 程 返回 C 
程序 时 ， 会 发 生 什么 影响 ”假定 一 个 过 程 将 一 个 新 的 值 写 到 代码 段 寄存 器 中 ， 那 么 影响 又 会 是 怎 
样 的 ? 

5. Linux 文档 项 目 (Linux Documentation Project) 在 网 站 (http: //www.ibiblio.org/mdw/index. html) 
中 ， 它 为 Linux 提供 了 一 个 全 面 的 描述 。 找 到 Linux 内 核 模 块 编程 指导 文档 ， 实 现 一 个 模块 ， 它 打 
印 输 出 “hello，world” 问 候 。 你 需要 有 管理 员 权 限 才能 在 Linux 机 器 上 安装 你 写 的 模块 。 

6. 参考 Windows NT/2000/XP 有 关 任 务 管理 器 (task manager) 的 联机 文档 。 运 行 Windows 任务 管理 
器 ， 然 后 观察 应 用 程序 标签 。 看 看 当前 运行 了 多 少 个 应 用 程序 ? 当前 运行 了 多 少 个 进程 ”当前 运 
行 了 多 少 个 线程 ? 你 可 以 在 哪儿 发 现 进程 数目 和 线程 数目 ? 


实验 3.1: 观察 操作 系统 的 行为 


| 本 实验 可 以 在 Solaris 和 Linux 系统 上 实现 。 

操作 系统 也 是 一 个 程序 ， 它 使 用 了 很 多 不 同 的 数据 结构 。 像 所 有 执行 中 的 程序 一 样 ， 通 过 观察 操作 系 
统 的 状态 一 一 存储 在 数据 结构 中 的 值 ， 你 可 以 明确 操作 系统 的 性 能 和 其 他 行为 。 这 个 练习 的 目标 就 是 通过 
观察 内 核 数据 结构 的 值 ， 来 研究 Linux 系统 组 织 结构 和 行为 。 

编写 一 个 程序 来 报告 Linux 内 核 的 行为 。 你 的 程序 应 该 有 三 个 不 同 的 选项 ， 默 认 的 版 本 应 该 在 stdout 
上 打印 下 面 的 值 : 

名 处 理 器 类 型 

BAK HRA 

里 系统 上 次 启动 以 来 的 时 间 量 

程序 的 第 二 个 版 本 除了 打印 与 第 一 个 版 本 相同 的 信息 外 ， 还 要 打印 ; 

m 处 理 器 花费 在 用 户 模式 、 核 心 模式 的 时 间 量 和 系统 空闲 的 时 间 量 

© 系统 磁盘 读 写 请 求 的 次 数 

m 内 核 执行 的 上 下 文 切换 的 次 数 

E 系统 上 次 启动 的 时 间 

B 系统 启动 以 来 创建 的 进程 总 数 

程序 的 最 后 一 个 版 本 除了 打印 和 第 二 个 版 本 相同 的 信息 外 ， 还 要 打印 如 下 信息 (使 用 man 命令 看 看 有 
关 /proc 的 帮助 信息 ): 

里 计算 机 中 配置 的 内 存 大 小 

m 当前 可 用 的 内 存 大 小 

m 一 列 负载 平均 值 (上 一 分 钟 的 平均 值 )。 这 些 信 息 由 另 一 个 程序 来 使 用 ， 使 得 用 户 可 以 明白 负载 值 

是 如 何 随时 间 间 隔 而 变化 的 。 对 于 这 个 版 本 的 程序 ， 你 需要 提供 两 个 额外 的 参数 来 指示 : (1) 应 该 
多 长 时 间 从 内 核 读 取 一 次 负载 平均 值 ? (2) 应 该 以 多 长 的 时 间 间 隔 来 读 取 负 载 平均 值 ? 














\ 
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例如 ， 程 序 的 第 一 个 版 本 可 以 通过 ksamp 来 运行 ， 而 第 二 个 版 本 可 以 通过 ksamp - s 来 运行 ， 第 三 个 
.版 本 可 以 通过 ksamp -1 2 60 来 运行 (使 负载 平均 值 观察 每 隔 60 秒 运行 一 次 ， 每 隔 2 秒 采样 内 核 表 )。 在 
做 这 部 分 练习 时 ， 你 将 发 现 sleep () 系统 调用 十 分 有 用 。 


背景 


一 般 来 说 ， 进 程 管理 和 资源 管理 的 大 部 分 是 在 UNIX 内 核 中 实现 的 。 几 乎 所 有 的 内 存 、 文 件 和 设备 管 
理 也 是 在 内 核 中 实现 的 。 在 实验 练习 中 ， 你 的 目标 就 是 确定 这 些 管理 器 的 不 同 状态 。 

Linux 内 核 是 作为 单一 内 核 模块 来 实现 的 ， 它 的 代码 运行 在 系统 空间 。 因 为 它 是 单一 内 核 ， 所 以 其 数 
据 结构 可 被 内 核 的 其 余部 分 操作 。 结 果 ， 有 时 要 查找 确定 操作 系统 状态 的 特定 的 数据 结构 会 变 得 非常 困 
ME. Linux, Solaris 和 一 些 其 他 的 UNIX 版 本 提供 了 /proc 文件 系统 ， 它 是 观察 内 核 状态 的 有 用 机 制 。 这 也 
将 是 你 用 来 解决 本 实验 练习 的 关键 机 制 。 

/proc 文件 系统 

McKusick 等 人 [1996，p.113] 提 及 到 : /proc 文件 系统 来 自 UNIX 第 八 版 ， 它 现 已 使 用 在 4.4 BSD 
上 。 在 /proc 文件 系统 中 ， 可 以 用 read () A wite O 系统 调用 来 访问 另 一 个 进程 地 址 空间 ， 这 使 得 调 
试 器 可 以 非常 高 效 地 访问 被 调试 的 进程 。 子 进程 中 的 一 些 感 兴趣 页 面 被 映射 到 内 核 地 址 空间 。 需 要 的 数据 
可 从 内 核 直 接 拷 贝 到 父 进程 地 址 空间 。 文 中 (p.239) 也 提 及 /proc 文件 系统 可 用 来 收集 系统 中 有 关 进 程 的 
信息 。 

Linux 使 用 /proc 文件 系统 来 从 内 核 数据 结构 中 收集 信息 。Linux 提供 的 /proc 实现 可 以 读 取 许多 不 同 
的 内 核 数据 结构 。 如 果 你 在 Linux 系统 中 使 用 cd 命令 切换 到 /proc 目录 下 ， 然 后 列 出 此 位 置 下 的 文件 和 目 
录 ， 你 会 看 见 几 个 目录 和 几 个 文件 。 在 目录 子 树 下 的 每 个 文件 都 读 取 了 一 些 内 核 表 。 具 有 数字 名 的 子 目录 
包含 了 伪 文件 ， 它 存储 的 也 是 进程 的 信息 ， 其 进程 的 ID 号 与 目录 名 相同 。 名 为 self 的 目录 包含 了 正在 使 
用 /proc 的 进程 详细 的 信息 。 

对 /proc 中 文件 的 读 写 就 像 普通 的 ASCII 文件 的 读 写 一 样 。 也 就 是 说 ， 你 必须 打开 文件 ， 然 后 使 用 
stdio 库 函数 (Ai fgets 和 fscanf) 来 读 取 文件 。 准 确 的 文件 (表格) 读 写 依赖 于 你 使 用 的 Linux 版 本 。 
在 确切 知道 可 以 使 用 哪个 文件 接口 前 ， 你 必须 读 系统 的 proc (5) 手册 。 例 如 ，Redhat Linux 2.0.36 提供 
了 一 个 名 为 /proc/sys 人 kernel/osrelease 的 文件 。 如 果 你 打开 这 个 文件 并 读 取 它 ， 将 会 看 到 ASCH FAH 
“2.0.36”。 你 也 可 以 简单 地 使 用 shell 程序 的 cat 命令 来 读 取 这 个 文件 。 

在 开始 使 用 /proc 文件 系统 之 前 ， 注 意 不 同 的 读 函 数 的 执行 过 程 会 不 同 。 例 如 ， 有 些 函 数 仅 在 伪 文 件 
被 打开 时 读 取 内 核 表 ， 其 他 的 则 在 每 次 文件 读 时 都 读 取 内 核 表 。 


解决 问题 

你 的 程序 需要 有 三 个 不 同 的 选项 ， 你 需要 通过 argv 数组 来 传递 命令 行 参数 。 确 定 一 个 文件 (比如 / 
proc/sys/kernel/foo) 包含 了 你 想 要 的 信息 。 

可 以 用 下 面 的 调用 打开 文件 : 

fid= fopen (“/proc/sys/kernel/foo “, "r "); 

fscanf (fid, “...",...); 


在 从 合适 的 伪 文 件 中 读 取 了 数据 之 后 ， 对 字符 串 解释 并 提取 你 需要 的 数据 ， 然 后 使 用 stdio 函数 在 
stdout 上 打印 出 报告 。 





第 4 章 计算 机 组 织 结构 


操作 系统 提供 了 抽象 以 简化 对 硬件 的 使 用 。 由 于 大 多 数 人 在 学 习 操作 系统 之 前 已 经 学 过 计算 机 组 织 结 
构 这 门 课 程 ， 所 以 下 面 我 们 着 重 于 与 操作 系统 设计 相关 的 硬件 部 分 〈 如 自 陷 和 中 断 ) 的 讨论 。 

单线 程 进程 是 冯 : 诺 依 曼 计算 机 的 操作 抽象 ， 如 果 理 解 了 一 个 冯 : 诺 依 曼 计算 机 是 如 何 执行 程序 的 ， 你 
就 能 理解 进程 背后 的 知识 。 对 操作 系统 的 深入 理解 ， 依赖 于 计算 机 硬件 是 如 何 组 织 的 等 基础 知识 ， 尤 其 是 
控制 部 件 和 设备 操作 方面 。 设 备 管理 在 本 章 中 引入 ， 并 在 第 5 章 中 进一步 介绍 。 在 本 章 和 第 5 章 ， 共 同 提 
供 了 一 个 关于 操作 系统 与 硬件 设计 相互 作用 的 典型 例子 ， 介绍 了 操作 系统 必须 同时 管理 两 个 或 更 多 机 制 的 
情况 。 尽 管 本 章 专 注 于 硬件 ， 但 仍然 是 从 系统 程序 员 的 观点 来 观察 计算 机 的 。 


4.1 冯 : 诺 依 曼 体 系 结构 


操作 系统 软件 是 构建 在 计算 机 硬件 上 面 的 。 计 算 机 的 体系 结构 指 的 是 : 用 来 组 成 计算 机 的 子 部 件 〈 处 
理 器 、 内 存 、 设 备 ) 的 种 类 和 这 些 子 部 件 相互 连接 的 方式 。 在 现代 计算 机 中 ， 超 过 95% 的 计算 机 使 用 的 是 
二 战 期 间 〈 半 个 世纪 以 前 ) 所 定义 的 体系 结构 。 这 种 体系 结构 起 源 于 19 世纪 初期 发 明 的 基本 设计 原理 。 


4.1.1 冯 : 诺 依 曼 体 系 结构 的 发 展 


Charles Babbage 在 1822 年 开始 从 事 差分 机 的 研制 工作 ， 一 直到 1857 年 他 坚持 不 懈 地 开展 着 这 方面 的 
工作 一 一 后 来 被 称 为 分 析 机 [Randell，1973]。 差分 机 使 用 了 存储 程序 计算 机 的 概念 一 一 整个 是 使 用 机 械 
零件 实现 的 ， 没 有 用 到 电子 部 件 ! 在 19 世纪 早期 ， 提花 织 布 机 采用 了 这 样 的 一 种 机 制 : 通过 存储 图 案 的 
表示 ， 人 允许 织 布 者 可 以 修改 规划 进 织 布 中 的 图 案 。Babbage 意识 到 这 种 方法 的 好 处 ， 并 在 他 的 差分 机 上 采 
用 了 这 种 方法 来 存储 计算 模型 一 一 被 称 为 存储 程序 计算 机 。Babbage 发 现 ， 通过 重复 组 合计 算 模 型 可 以 执 
行 大 量 的 计算 。 他 使 用 了 提花 织 布 机 的 图 案 存 储 方式 来 存储 计算 模型 〈 像 以 for 循环 进行 的 计算 )。 他 于 
1836 年 在 论文 中 描述 了 存储 程序 计算 机 这 一 具有 革命 性 思 
想 的 基本 原理 [Babbage，1836]。 

1945 年 ， 贝 尔 实验 实 研究 人 员 Zuse [1936], Atanasoff > 
[1940], Aiken 和 Hopper [1946] 等 对 Babbage 的 思想 进行 
了 重新 改造 和 扩展 ， 并 使 用 电子 元 件 实现 。 在 20 世纪 40 | 

e 


年 代 早期 ， 美 国政 府 任命 了 一 批 研究 人 员 来 开发 EDVAC 计 


算 机 [von Neumann, 1945]: 
计算 机 不 仅 要 能 存储 给 定 计算 需要 的 数字 信息 ， 而 且 N 
也 要 存储 控制 数据 计算 程序 执行 的 指令 。 pom a 


EDVAC 的 存储 程序 计算 机 体系 结构 (也 称 冯 - BRR Q 








计算 机 体系 结构 ) 来 自 这 个 研究 小 组 的 工作 ， 它 是 现代 计 


算 机 的 备 有 文献 可 查 的 体系 结构 。 固定 电子 设备 存储 程序 设备 
4.1.2 基本 思想 图 4-1 存储 程序 计算 机 和 电子 设备 
注 : 存储 程序 计算 机 使 用 了 19 世纪 提花 织 
在 计算 机 出 现 之 前 ， 电 子 设备 的 设计 决定 了 该 设备 的 布 机 的 存储 图 案 的 思想 。 这 意味 着 你 可 
功能 。 例如， 如 果 电 子 设备 用 来 测量 流体 流动 ， 那 它 就 不 以 使 用 一 个 织 布 机 “自动 地 ”产生 具有 
能 用 作 其 他 用 途 。 冯 - 诺 依 曼 计算 机 基于 这 种 思想 : 机 器 有 许多 不 同 图 案 的 织物 。 对 于 计算 机 来 
一 组 固定 的 电子 部 件 , 但 可 由 可 变 的 程序 来 决定 它 的 行为 说 ， 你 可 以 对 固定 的 电子 设备 进行 编程 
( 见 图 4-1)。 使 用 相同 的 硬件 ， 不 同 的 程序 会 启动 不 同 的 操 来 做 很 多 不 同 的 工作 ， 不 再 需要 重新 设 


作 来 实现 不 同 的 功能 。 这 种 思想 现在 看 起 来 很 简单 ， 但 在 计 电子 设备 。 
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Babbage 的 时 代 ， 它 是 一 种 革命 性 的 思想 。 结 果 ， 汉 - 庄 依 曼 计算 机 可 用 来 解决 许多 种 类 的 问题 。 这 个 特征 
是 存储 程序 计算 机 和 其 他 电子 设备 的 最 重要 的 区 别 。 它 也 是 圣人 式 系统 ( 见 1.2 节 ) 发 展 的 一 个 关键 因 
素 ， 可 以 将 嵌入 式 计算 机 使 用 在 装备 火箭 的 舰 船 、 水 力 发 电 控制 器 等 电子 子 部 件 中 。 也 就 是 说 ， 实 现 控制 
功能 的 电子 硬件 设备 中 包括 了 存储 程序 计算 机 一 - 嵌入 式 计算 机 。 这 使 得 不 用 对 计算 机 和 硬件 设备 做 任何 
改变 ， 对 软件 进行 更 新 就 可 以 实现 新 的 功能 。 

用 来 解决 一 般 问题 的 存储 程序 计算 机 配置 了 -组 通用 的 设备 。 许 多 问题 的 解决 都 要 求 计 算 机 有 输入 设 
备 〈 如 键盘 、 显 示 器 和 鼠标 ) 、 打 印 机 、 网 络 适 配器 和 磁盘 设备 。 具 有 这 种 配置 的 计算 机 称 为 “通用 计算 
机 ”， 因 为 它们 可 以 用 来 做 许多 不 同类 型 的 计算 和 信息 存储 任务 。 个 人 计算 机 、 工 作 站 和 网 络 服务 器 都 是 
通用 存储 程序 计算 机 。 

汉 : 诺 依 曼 计算 机 体系 结构 几乎 是 所 有 当代 计算 机 系统 的 构成 基础 ， 特 别 是 通用 计算 机 。 大 多 数 的 专 
用 计算 机 也 采用 了 这 种 结构 。 有 的 专门 设计 用 来 进行 特定 处 理 任务 (如 信号 处 理 ) 的 计算 机 没有 采用 冯 。 
诺 依 曼 计算 机 体系 结构 ， 但 是 它们 也 是 根据 汉 诺 依 曼 计算 机 体系 结构 的 思想 演变 而 来 的 。4.8 节 描 述 了 
在 高 性 能 计算 需求 的 推动 下 ， 汉 . 诺 依 曼 计算 机 体系 结构 的 一 些 变化 。 

如 图 4-2 所 示 ， 冯 , 诺 依 曼 计算 机 中 有 下 列 硬件 部 件 : 

m 中 央 处 理 单元 (CPU)， 由 一 个 算术 逻辑 运算 

单元 (ALU) 和 一 个 控制 单元 构成 。 

mE (或 可 执行 的 ) 存储 单元 

a 一 组 IMO 设备 

BERR ABN AR 地 址 总 线 

程序 和 数据 通过 输入 /输出 设备 从 外 部 世界 输入 数据 总 线 
计算 机 。 输 入 设备 如 键盘 等 可 用 来 将 外 部 信息 输入 到 
计算 机 。 输 出 设备 如 打印 机 可 用 来 将 计算 机 内 的 信息 
拷贝 到 外 部 世界 。 存 储 设备 〈 如 磁盘 等 辅 存 ) 可 用 来 
将 信息 存储 于 计算 机 中 。 在 从 外 部 世界 读 人 信息 或 被 
计算 后 ， 信 息 就 永久 地 存储 在 存储 设备 中 。 可 以 从 存 图 4-2 冯 诺 依 曼 体系 结构 
储 设备 上 得 到 信息 ， 然 后 将 它们 读 入 主 存 内存) 并” 注 : 光谱 依 受 计算 机 包含 了 CPU, Eh ALU 和 控制 


进行 计算 。 通 信 设备 是 输入 /输出 设备 的 组 合 ， 如 调 Ma 
制 解 调 器 、 申 行 口 等 都 是 通信 设备 。 : 


据 。 设 备 是 用 来 进行 输入 、 输 出 、 通 信和 存储 的 。 
在 程序 和 数据 能 使 用 之 前 ， 它 们 通常 保存 于 存储 总线 连接 CpU、 主 在 全 中 和 设备， 


设备 上 。 当 程序 和 数据 准备 被 使 用 时 ， 它 们 就 会 从 输 
入 设备 或 者 存储 设备 进入 主 存 。 一 县 程 序 和 数据 加 载 到 主 存 中 ， 中 天 处 理 单元 (CPU) 对 数据 进行 计算 ， 
并 将 产生 的 新 数据 存储 在 主 存储 器 中 。 如 图 4-2 所 示 ，CPU 由 控制 单元 和 算术 逻辑 运算 单元 组 成 。 控 制 单 
元 (CU) 读 出 程序 中 的 每 条 指令 ， 对 指令 译 码 ， 通过 相应 的 执行 特定 指令 的 部 件 使 程序 得 到 执行 。 算 术 
逻辑 运算 单元 (ALU) 完成 所 有 的 算术 运算 ， 如 数值 的 加 、 减 、 乘 、 除 ; 它 也 完成 逻辑 运算 ， 如 两 个 数 的 
比较 ， 检 测 一 个 数值 是 否 为 0 等 。 

所 有 的 部 件 都 是 通过 总 线 (bus) 相连 ， 总 线 将 电信 号 从 一 个 部 件 传送 到 另 一 个 部 件 。 在 图 4-2 中 ， 总 
线 分 为 地 址 总 线 (address bus) 和 数据 总 线 (data bus)， 地 址 总 线 用 来 传输 地 址 ， 数 据 总 线 用 来 传输 数据 。 
在 有 的 计算 机 中 ， 只 有 一 根 总 线 ， 它 是 通过 时 分 复 用 技术 来 实现 数据 和 地 址 的 传输 的 。 计 算 机 中 分 别 使 用 
地 址 总 线 和 数据 总 线 ， 这 样 可 为 计算 机 不 同 部 件 间 的 数据 和 地 址 传输 提供 更 多 的 带宽 。 在 一 些 情形 下 ， 为 
了 在 部 件 间 提 供 更 多 有 效 的 带宽 ， 总 线 数目 可 能 加 倍 。 例 如 ， 输入 /输出 总 线 (包含 地 址 总 线 和 数据 总 线 ) 
将 设备 与 主 存 相 联 ， 但 处 理 器 与 主 存 使 用 另外 的 总 线 。 每 个 总 线 包 含有 许多 单独 的 信和 号 载体 (“ 线 ")， 一 
些 线 用 于 仲裁 对 总 线 的 访问 (例如 ， 当 一 个 设备 想 要 与 主 存 传输 数据 时 ， 要 分 配 总 线 给 它 )， 其 他 的 线 用 
于 传送 信息 一 一 地 址 或 数据 ， 还 有 其 他 用 于 各 种 控制 功能 的 。 通常 总 线 中 包含 16 根 单独 的 线 用 于 在 部 件 
间 传 送 数据 ， 而 用 于 控制 的 线 只 有 其 一 半 ， 因 而 ， 总 线 是 计算 机 中 一 个 昂贵 和 复杂 的 组 成 部 分 。 

所 有 的 冯 : 诺 依 曼 计算 机 都 带 有 一 个 包含 ALU 和 控制 单元 的 CPU、 主 存 以 及 一 组 设备 ， 有 的 设备 用 来 
输入 ， 有 的 用 来 输出 ， 有 的 可 用 来 与 其 他 机 器 进行 通信 ， 有 的 用 来 存储 永久 信息 。 ( 非 汉 : 诺 依 曼 计算 机 的 
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基本 体系 结构 可 能 有 所 不 同 ， 例 如 ， 机 器 中 有 可 选 的 部 件 ， 将 两 个 或 多 个 部 件 结合 成 一 个 ， 或 者 有 一 个 控 
制 部 件 和 多 个 ALU 等 。) 通过 将 软件 加 载 到 主 存 ， 软 件 可 控制 硬件 的 执行 。 下 面 将 详细 讨论 冯 :' 诺 依 曼 计 
算 机 中 的 各 个 部 件 。 


4.2 ”中央 处 理 单 元 


中 央 处 理 单元 (CPU) 是 计算 机 的 大 脑 : 它 决定 执行 哪 一 条 指令 ， 然 后 将 指令 译 码 后 并 执行 它 。 正 是 
CPU 的 设计 将 存储 程序 计算 机 和 其 他 的 电子 设备 区 分 开 来 。 这 是 Babbage 在 1822 年 开始 形成 的 思想 ， 也 
是 冯 : 诺 依 曼 委 员 会 在 1945 年 所 采用 的 思想 ， 它 是 Pentium 或 SPARC 微 处 理 器 的 基础 。 

如 图 4-2 所 示 ，CPU 由 一 个 ALU 和 一 个 控制 单元 组 成 ，ALU 完成 计算 功能 ， 而 控制 单元 决定 指令 的 
执行 次 序 ， 译 码 存储 的 程序 指令 ， 并 让 ALU 执行 。 


4.2.1 算术 逻辑 运算 单元 


算术 逻辑 运算 单元 (ALU) 可 以 认为 是 一 个 
非常 快 的 计算 器 : 它 有 一 个 功能 单元 用 于 执行 算 
REE (加 法 ， 减法， 乘法 ， 除 法) 和 逻辑 操作 
(比较 ， 逻 辑 与 ， 逻 辑 或 ， 逻 辑 非 )。 像 计算 器 一 
FE, ， 功 能 单元 需要 一 些 操作 数 来 执行 操作 。 大 多 
数 操作 是 二 元 的 ， 意 味 着 它们 需要 两 个 操作 数 。 
例如 ， 我 们 指定 加 法 操作 如 x+y, x 为 左 操作 数 ， 
y 为 右 操 作 数 ，+ 为 加 法 操作 。ALU 还 包括 了 一 
组 通用 寄存 器 来 保存 将 被 功能 单元 使 用 的 操作 数 
( 见 图 4-3)。 通 过 执行 load 机 器 指令 ， 这 些 寄存 
器 的 内 容 会 从 主 存储 器 中 加 载 。 寄 存 器 的 内 容 可 
以 通过 store 指令 保存 到 主 存储 器 中 。 当 代 的 


送 到 / 取 自 主 
CPU 有 32 一 64 个 寄存 器 ， 每 个 寄存 器 一 般 可 以 保 、 | 存储 器 





存 32 位 值 (寄存 器 的 数量 和 尺寸 随 着 CPU 的 发 
展 而 增长 一 一 有 的 机 器 能 保存 64 位 值 )。 


图 4-3 一 般 的 算术 逻辑 运算 单元 
TE: ALU 执行 了 大 量 的 二 进 制 算术 和 逮 辑 操作 ， 如 加 、 减 


CPU 的 其 他 部 分 可 使 用 ALU 状态 寄存 器 来 
获得 ALU (有 时 是 控制 单元 ) 操作 的 状态 。 本 书 
中 ， 所 有 状态 寄存 器 的 新 用 途 都 被 解释 为 是 适应 
需要 而 产生 的 结果 。 在 这 儿 ， 可 以 认为 状态 寄存 


和 逻辑 与 等 。 功 能 单元 执行 操作 ， 寄 存 器 保存 操作 数 
和 结果 。 寄 存 器 的 内 容 可 以 从 主 存 储 器 中 加 载 ， 也 可 
将 寄存 器 的 内 容 保存 到 主 存 储 器 中 。 


器 是 CPU 保存 关于 当前 正在 执行 的 计算 的 信息 ， 如 “最 后 功能 部 件 操作 的 结果 为 0”。 
在 用 来 实现 计算 机 的 所 有 电子 技术 中 ,信息 是 使 用 二 进 制 数字 0、1 表示 和 存储 起 来 的 。 对 于 数字 而 


t 


a 


` Dll 


了 操作 。4.3 节 对 二 进 制 表示 有 更 多 的 讨论 。 


， 这 意味 着 是 使 用 二 进 制 存储 的 而 不 是 十 进 制 。 功 能 单元 仅仅 对 信息 的 二 进 制 ( 而 不 是 十 进 制 ) 表示 进 


计算 可 通过 以 下 方式 完成 : 通过 将 二 进 制 值 加 载 到 通用 寄存 器 ， 并 使 用 功能 单元 (会 将 计算 结果 保存 
到 寄存 器 ) 来 对 寄存 器 上 的 操作 数 进行 运算 ， 最 后 将 结果 存 人 主 存储 器 。 例 如 ， 如 果 一 个 C 源 程序 包含 有 


如 下 代码 段 : 
a=b+łc; 
d=a- 100; 


那么 ， 为 了 完成 这 两 个 语句 ，CPU 会 执行 下 面 的 汇编 语言 指令 : 


// Assembly language code for a = b + c; 
// Copy the value of b from memory to R3 
// Copy the value of c from memory to R4 


load R3,b 
load R4,c 
add R3,R4 // Sum placed in R3 


store R3, a // Store the sum into memory cell a 
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// Assembly language code for d = a - 100 


load R4,=100 // Load the value 100 into R4 
‘subtract R3,R4 // Difference placed in R3 
store R3,d // Store the difference in memory cell d 


前 三 条 指令 计算 “b+c”， 它 首先 将 变量 b 的 值 从 主 存 储 器 加 载 到 通用 寄存 器 RB， 将 变量 c 的 值 从 主 
存储 器 加 载 到 通用 寄存 器 R&， 最 后 功能 单元 使 用 R 和 R4 的 内 容 来 进行 加 法 操作 。 在 这 个 假定 的 计算 机 
中 ， 功 能 单元 会 将 加 法 的 结果 写 回 通用 寄存 器 RB。 第 四 条 指令 将 RB3 的 内 容 ， 也 就 是 “b” 和 “c” 的 和 ， 
存储 到 主 存 中 a 变量 的 地 址 单元 中 去 。 最 后 三 条 指令 计算 和 保存 d 的 值 。 

功能 单元 是 计算 机 实际 运算 的 引擎 。 功 能 单元 可 能 很 简单 ， 也 可 能 很 复杂 。 浮 点 操作 通常 比 整数 操作 
复杂 得 多 ， 因 此 ， 某 些 功能 部 件 可 能 不 包含 浮 点 算术 运算 功能 。 蔡 代 方 案 是 ， 或 者 有 一 个 辅助 的 处 理 器 完 
成 浮 点 运算 ， 或 者 由 软件 库 例 程 来 实现 浮 点 运算 。 


4.2.2 控制 单元 


控制 单元 可 从 可 执行 存储 器 单元 中 取得 一 系列 指令 ， 并 对 它们 进行 译 码 。 如 图 4-4 所 示 ， 控 制 单元 包 
含 了 一 个 从 主 存 中 取 指 令 的 部 件 ， 一 个 译 码 指令 的 部 件 ， 以 及 可 用 来 向 ALU (执行 指令 ) 发 信号 的 部 件 。 
程序 计数 器 (program counter, PC) 寄存 器 中 包含 了 控制 部 件 将 要 加 载 的 下 条 指令 的 地 址 ; 指令 寄存 器 
(instruction register, IR) 包含 当前 指令 的 拷贝 〈 一 旦 指令 从 主 存 中 取出 )。 在 图 4-4 中 ，IR 中 包含 着 在 地 
址 3050 处 load 指令 的 映 象 ，PC 中 包含 3054 (下 一 条 要 取出 执行 的 指令 地 址 )。 


load R3,b 
load R4,c 
add R3, R4 
store R3,a 






3046 | 10111001001100... 1 


3050 | 10111001010000... 0 
3054 | 10100111001100... 0 
3058 | 10111010001100... 1 


控制 单元 主 存 


图 4-4 程序 计数 器 、 指 令 寄存 器 和 主 存 
TE: 控制 单元 负责 根据 PC 的 值 取 下 一 条 指令 。 指 令 寄存 器 包含 了 当前 指令 的 拷贝 。 当 新 的 指令 被 装 和 指令 寄存 器 
时 ， 译 码 单元 对 这 条 指令 进行 解析 ， 并 决定 采取 什么 动作 。 执 行 单元 然后 控制 CPU 的 相应 部 分 来 执行 指令 。 


可 以 通过 阅读 控制 单元 的 取 指 -执行 算法 (参见 图 4-5) 来 更 好 地 理解 控制 单元 的 操作 。 当 机 器 启动 时 ， 
PC 会 装 人 第 一 条 要 执行 的 指令 的 地 址 。 这 通常 是 由 硬件 引导 过 程 完成 的 。 即 机 器 执行 的 第 一 条 指令 的 地 址 
是 固定 的 ;控制 单元 从 主 存 中 取出 并 装 人 第 一 条 指令 (存储 在 一 个 指定 的 位 置 )， 然 后 开始 正常 的 操作 过 程 。 
在 算法 的 描述 中 ，haltFlag 被 用 来 做 循环 测试 ， 以 决定 什么 时 间 控 制 单元 结束 〈 对 于 特定 的 汉 ' 诺 依 曼 计 算 
机 ， 算 法 的 这 一 部 分 存在 许多 变 体 )。 当 控制 单元 停止 ， 计 算 机 也 就 停止 。 当 系统 软件 希望 执行 一 个 程 
序 一 一 这 是 由 控制 单元 来 执行 的 ， 系 统 软件 加 载 程序 到 内 存 ， 然 后 将 程序 的 人 口 点 存储 到 PC 中 。 

取 指 - 执行 周期 在 一 个 原子 级 别 上 (在 软件 控制 之 下 ) 定义 了 计算 机 的 操作 。 当 计算 机 启动 时 ， 控 制 
单元 开始 去 执行 取 指 - 执行 周期 ， 它 会 持续 执行 取 指 - 执行 周期 直到 计算 机 切断 电源 。 我 们 使 用 术语 硬件 
进程 (hardware process) 指称 这 个 基本 活动 : 当 计算 机 启动 时 ， 我 们 说 硬件 进程 开始 运行 了 。 和 硬件 进程 根 
本 就 不 是 操作 系统 进程 ， 它 是 用 来 执行 操作 系统 和 所 有 由 操作 系统 创建 的 虚拟 机 的 。 它 执行 一 个 程序 中 的 
指令 一 段 时 间 ， 然 后 切换 到 另 一 个 程序 中 来 执行 指令 。 操 作 系统 仅仅 是 这 些 程序 中 的 一 个 。 我 们 将 在 4.6 
节 和 6.2 节 更 详细 地 讨论 硬件 进程 的 行为 。 
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PC <machine start address>; 

IR = memory[PC]; 

haltFlag = CLEAR; 

while (haltFlag not SET during execution) { 


Pc = PC + 1; 

execute(IR); 

IR = memory[ PC]; 
}; 








图 4-5 硬件 取 指 -执行 周期 
注 : 取 指 - 执行 算法 在 控制 单元 硬件 中 实现 。while 循环 内 的 这 些 步骤 是 执行 一 条 机 器 指令 所 必须 的 。 


4.2.3 处 理 器 的 实现 


在 20 世纪 40 年 代 ，CPU 最 初 是 使 用 电子 管 技术 〈 现 在 ， 电 子 管 除了 在 高 端的 吉他 放大 器 中 使 用 外 ， 
已 很 少 使 用 了 ) 来 实现 的 。 它 是 一 个 巨大 的 机 器 。 电 子 管 和 家 用 的 电灯 泡 的 大 小 差不多 ， 它 包含 了 执行 单 
个 逻辑 功能 的 电子 线路 ， 等 同 于 一 个 晶体 管 。 使 用 电子 管 建造 的 计算 机 体积 十 分 巨大 ， 它 要 耗费 大 量 的 电 
Wo EDVAC 和 其 他 类 似 的 机 器 占 满 了 巨大 的 房间 ， 甚 至 需要 特别 供电 才能 使 它 运行 。 将 一 个 像 EDVAC 
这 样 的 机 器 放 在 你 的 地 下 室 里 几乎 是 不 可 能 的 (除非 你 有 一 栋 巨 大 的 房子 和 一 个 变电站 )。 

到 20 世纪 60 年 代 ， 电 子 管 被 晶体 管 所 取代 ， 然 后 是 集成 电路 ， 它 包含 了 多 个 晶体 管 一 一 使 得 CPU 
的 体积 和 电源 耗费 量 大 为 减少 。 集 成 电路 的 出 现 不 仅 使 计算 机 体积 变 得 更 小 和 耗 能 更 少 ， 它 也 使 得 计算 机 
设计 者 可 以 在 硬件 上 增加 一 些 新 的 功能 。 这 个 时 期 出 现 的 超级 计算 机 是 IBM 7090 Stretch 计算 机 ， 几 年 之 

后 出 现 了 IBM System/360 Model 91 和 CDC 6600。 这 些 机 器 有 多 个 功能 单元 ， 还 有 很 多 其 他 的 设计 策略 使 

得 它们 的 速度 提升 了 很 多 。( [Thomton 1970] 描述 了 COC 的 设计 者 在 那 时 想 要 制造 世界 上 最 快 的 计算 机 
所 做 的 努力 。) 

集成 电路 技术 以 极 快 的 速度 在 持续 发 展 ， 所 以 ,在 20 世纪 70 年 代 后 期 可 以 使 用 大 规模 集成 电路 在 单 
个 集成 电路 芯片 上 实现 整个 的 CPU。 这 种 趋势 在 持续 发 展 : 写 这 本 书 时 ， 一 个 现代 的 微 处 理 器 如 Intel 
Pentium 4 差不多 有 100 000 000 个 晶体 管 。 

微 处 理 器 使 用 同步 数字 逻辑 ， 意 味 着 在 晶体 管 电路 操作 时 ， 定 义 了 一 个 基本 的 时 钟 周期 。 徽 处理 器 有 
一 个 基本 的 时 钟 周期 ， 在 一 个 时 钟 周 期 期 间 ， 晶 体 管 集合 可 以 执行 如 将 数据 从 一 个 寄存 器 移 到 另 一 个 寄存 
器 、 将 寄存 器 的 值 与 0 进行 比较 等 功能 。 因 此 计算 机 的 时 钟 频率 是 决定 ALU 执行 速度 的 一 个 因素 。 对 于 
当代 的 计算 机 ， 简 单 的 机 器 指令 可 以 在 一 个 时 钟 周期 内 执行 完成 ， 但 内 存 访 问 指令 需要 多 个 时 钟 周 期 。 

在 20 世纪 80 年 代 早期 出 现 的 IBM PC AT， 硬 件 的 时 钟 频率 达到 了 6MHz (每 秒 6 000 000 个 时 钟 周 
期 ) [Messmer，1995]。 因 此 ， 这 人 台 机 器 上 指令 的 最 少 执行 时 间 就 是 一 个 机 器 周期 的 时 间 ， 也 就 是 0.167x 
10- 秒 ， 也 可 写成 0.167 微 秒 (简写 ps) 或 167 纳 秒 (ns)。 现 在 ， 英 特 尔 Pentium 4 处 理 器 的 时 钟 频率 达 
到 了 2GHz (每 秒 20 亿 )， 意味 着 指令 的 最 短 执行 时 间 为 0.0004 微 秒 ， 即 0.4 WE. 

通过 让 CPU 的 不 同 部 分 同时 运行 的 设计 ， 当 代 的 微 处 理 器 可 以 提高 它们 的 运算 速度 。 大 多 数 的 微 处 
理 器 采取 的 第 一 个 并 行 操作 是 : 将 控制 单元 的 取 指 令 操作 和 执行 指令 操作 重生 执行 。 将 取 下 一 条 指令 的 操 
作 与 当前 指令 的 执行 操作 重 琶 ， 机 器 的 运算 速度 就 是 原来 的 两 倍 。 例 如 ， 通 过 将 取 指 令 和 执行 指令 重 倒 执 
行 ， 控 制 单元 的 取 指 令 部 件 在 得 到 3054 地 址 内 指令 的 拷贝 的 同时 ， 控 制 单元 的 其 他 部 分 可 以 对 3050 地 址 
内 的 指令 进行 译 码 并 执行 。 
4.3 主 存储 器 


主 存单 元 用 于 存储 CPU 操作 需要 的 程序 和 数据 。 如 图 4-6 所 示 ， 主 存 接口 由 三 个 相应 的 寄存 器 组 成 ， 
存储 地 址 寄存 器 (memory address register, MAR), 存储 数据 寄存 器 (memory data register, MDR), UEA 
AFAR (command register, Cmd)。 当 有 信息 要 写 和 人 主 存 时 ， 数 据 放 在 MDR 中 ， 相 关 的 主 存 地 址 放 在 
MAR 中 ， 并 将 一 个 write 命 令 放 在 Cmd 中 。 图 4-6 说 明了 write 命令 放 在 Cmd 中 后 ， 各 寄存 器 和 主 存 中 
的 内 容 ，MDR 中 的 内 容 98765 会 存 人 MAR 中 的 地 址 1234 所 指 的 主 存 位 置 中 。 如 果 在 MAR 中 放 人 一 个 地 
址 ， 并 且 放 一 个 read 命令 到 Cmd 中 ,一 个 存储 周期 (memory cycle) 后 ， 存 储 部 件 会 将 指定 单元 中 的 内 容 
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拷贝 到 MDR 中 ， 从 而 完成 一 个 read 操作 。 

主 存 的 单元 数目 和 每 个 单元 的 位 数 ， 取 决 于 当时 的 电子 制造 技术 以 及 硬件 设计 的 考虑 。 例 如 ， 如 果 主 
存 是 基于 十 进 制 技 术 ， 那么 一 个 字 (单元 ) 可 能 
能 够 表示 000~999 之 间 的 任意 三 位 数 ， 三 位 数 中 
的 每 一 个 数字 可 以 取 0 一 9 之 间 的 一 个 。 由 于 0~9 
之 间 有 10 个 数值 ， 那 么 访问 的 数值 将 是 十 进 制 
(基于 10) 的 形式 。 

使 用 十 进 制 技术 ,那么 被 存储 的 数值 就 要 基 
于 10 进行 运算 。 在 当代 计算 机 中 ， 二 进 制 技术 
(基于 2 的 运算 ) 用 于 表示 存储 在 一 个 字 中 的 数 
值 。 与 十 进 制 技 术 相 比 ， 使 用 二 进 制 技术 更 容易 
用 电子 元 件 表示 每 个 子 单元 的 状态 ， 可 以 用 电路 
的 关 (相当 于 0) 或 开 (相当 于 1) 的 状态 来 表示 
子 单元 的 每 一 位 。 字 中 的 子 单 元 能 够 存储 一 个 二 
EH, RA (bin). ALA MMT 。 ae eat, DA 

— AN = EA : 这 3 一 3 一 
单元 ， 因 此 一 个 8 位 的 单元 【又 叫 字 节 《byte)) 读 命令 载 人 命令 寄存 器 ; 3) 在 存储 器 完成 命令 之 
是 由 8 个 二 进 制 数值 构成 。 一 个 字 节 中 能 够 包含 后 ， 数 据 将 出 现在 MDR 中 
00000000 ~ 11111111 之 间 的 任 一 个 二 进 制 数 。 

(00000000: =0;0, 111111112 = 25510。 注 :xx, ÆJ n 进 制 的 数 xx.) 

假定 内 存 中 包含 有 ”个 字 ， 每 个 字 K 位 (参见 图 4-6). n 个 单元 的 地 址 是 从 整数 0 到 nw - 1， 由 于 第 
一 个 主 存单 元 的 地 址 为 0， 所 以 第 i+1 个 主 存单 元 的 地 址 为 i。 在 图 中 ， 地 址 为 1234 的 主 存单 元 中 的 值 为 
98765 (在 二 进 制 中 是 一 个 32 位 的 数值 : 0...011000010110110101)。 注 意 ， 地 址 本 身 也 是 以 二 进 制 表示 
的 , 所 以 1234io 表 示 为 一 个 12 位 的 二 进 制 数 010011010010,, MWR n 是 2 的 整数 次 军 ， 比 如 = 
4 294 967 296= 2”， 那 么 存储 这 个 地 址 就 需要 一 个 32 位 的 单元 。 因 此 ， 如 果 主 存 字 位 数 K 大 于 等 于 32， 
那么 就 可 以 用 一 个 主 存单 元 存储 另 一 个 存储 单元 的 地 址 (例如 ， 可 用 于 间接 寻 址 中 ); 如 果 主 存 字 位 数 开 
小 于 32， 那 么 可 以 通过 将 存储 地 址 拆 成 几 个 部 分 ， 连 续 存放 在 几 个 单元 中 的 方法 ， 存 储 另 一 个 单元 的 
地 址 。 

在 现代 计算 机 中 ， 内 存单 元 的 宽度 为 8 位 。 在 这 种 情况 下 ， 虽 然 每 个 内 存单 元 是 一 个 字 节 ， 但 可 以 将 
2 个 或 4 个 单元 组 合成 一 个 单位 使 用 ， 在 CPU 中 称 之 为 字 (word)。 不 同 的 计算 机 根据 它们 的 CPU 设计 和 
机 器 指令 ， 来 定义 机 器 中 字 的 大 小 。 尽 管 CPU 常常 是 以 字 进 行 操 作 的 ， 但 在 计算 机 硬件 组 织 结构 中 还 是 
按 通 常 的 方式 ， 即 每 个 单元 是 一 个 字 节 ， 所 以 主 存 是 以 字 节 为 单位 设 定 地 址 的 。CPU 可 以 设计 为 按 字 进 行 
数字 的 操作 ， 而 按 字 节 进行 字符 的 操作 ， 因 此 通过 连接 CPU 和 主 存 的 数据 总 线 传 送 的 字数 为 偶数 个 ， 即 
对 主 存 进行 的 是 8 位 或 32 位 的 读 写 操作 。 

在 1975 年 ， 计 算 机 主 存 是 使 用 铁 氧 体 磁 心 来 存储 一 位 。 这 种 技术 严重 地 限制 了 计算 机 中 主 存 (在 那 
时 称 磁 心 存储 器 ) 的 数量 ， 一 个 大 型 的 分 时 计算 机 的 主 存 还 不 到 1MB。 在 20 世纪 70 年 代 ， 存储 技术 转变 
成 固态 芯片 实现 。 大 约 在 同时 ， 人 们 开始 将 可 读 写 的 主 存 称 为 随机 访问 存储 器 (random access memory), 
或 RAM。 从 那 时 开始 ， 主 存 制造 商 开始 反复 改进 它们 的 技术 、 设 计 、 芯片 生产 工艺 ， 使 得 当代 的 芯片 主 
存 容 量 达到 了 512 兆 位 或 更 多 一 一 意味 着 8 片 这 样 的 芯片 实现 了 512MB 的 内 存 。 


4.4 ORE 
1/ 〇 设备 连接 到 计算 机 总 线 上 。 输 入 设备 将 来 自如 键盘 、 鼠 标 、 触 摸 屏 或 麦克 风 的 数据 传送 到 CPU 











写 到 输出 设备 中 ， 如 计算 机 显示 器 、 扬 声 器 或 打印 机 。 通 信 设 备 是 集 输 入 和 输出 为 一 体 的 设备 ， 它 可 以 将 
信息 传输 到 另 一 个 地 方 。 例 如 ， 串 行 端口 和 并 行 端口 、 红 外 发 射 机 /接收 机 、 无 线 网 卡 和 网 络 适配器 都 是 
通信 设备 。 外 存 设备 也 可 用 来 输入 和 输出 : 输入 操作 将 数据 从 外 存 设备 〈 如 磁带 或 光盘 ) 移 到 CPU 寄存 
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器 ， 然 后 送 入 主 存 。 输 出 操作 将 数据 从 主 存 移 到 外 存 设备 。 

每 个 I/O 设备 由 控制 器 子 部 件 (控制 设备 的 具体 操作 ) 和 物理 设备 本 身 组 成 。 设 备 操作 的 细节 依赖 于 
它 是 什么 类 型 的 设备 (如 输入 、 输 出 、 通 信 或 外 存储 设备 ) 和 特定 设备 工作 的 方式 (例如 ， 从 鼠标 获取 的 
输入 信息 与 从 键盘 得 到 的 击 键 信息 不 一 样 )。 这 四 类 设备 包含 很 多 种 设备 ， 从 慢 速 、 便 宜 的 设备 到 快速 和 
贵重 的 设备 。 为 了 能 正确 地 操纵 这 些 设备 ， 必 须 
在 设备 控制 器 上 提供 接口 ， 使 得 操作 系统 可 以 控 
制 设 备 控制 器 。 

设备 控制 器 将 设备 与 计算 机 的 数据 和 地 址 总 
线 相连 。 控 制 器 提供 了 一 组 部 件 ， 可 以 通过 CPU 
指令 操纵 这 些 部 件 来 使 得 设备 工作 。 虽 然 各 个 控 
制 器 的 细节 不 同 ， 但 是 每 个 控制 器 都 提供 相同 的 
基本 接口 。 作 为 资源 抽象 的 目标 的 一 部 分 ， 操 作 
系统 隐藏 了 控制 器 之 间 的 区 别 ， 使 得 所 有 类 型 的 
设备 接口 都 一 样 。 这 样 ， 即 使 各 个 控制 器 的 速度 、 i 
容量 和 操作 细节 不 一 样 ， 程 序 员 无 需 知 道 这 些 设 图 4-7 设备 、 控 制 器 、 软 件 之 间 的 关系 
备 的 细节 就 可 以 使 用 设备 。 通 过 将 设备 控制 器 的 注 : 操作 系统 设备 驱动 程序 通过 与 设备 控制 器 进行 交互 


操作 提成 操作 系统 中 的 一 个 高 层 定义 ， 就 达到 ATER. en eee aera 
了 通用 性 ( 见 图 4.7 ALi ERP TEMAS RNAP. ? 
制 器 接口 是 硬件 与 硬件 之 间 的 接口 ， 它 的 细节 与 特 


来 为 设备 编写 I/O 代码 ， 而 无 需 知 道 这 些 设备 的 细节 。 


4.4.1 设备 控制 器 


在 对 设备 的 操作 中 ， 需 要 持续 地 注意 设备 的 状态 。 如 果 软 件 想 要 直接 控制 设备 ， 需 要 在 操作 中 不 间断 
地 监控 设备 的 详细 操作 状态 。 这 种 监控 大 多 是 简单 地 观察 状态 、 提 供 详细 命令 、 修 正 小 的 错误 。 这 种 功能 
可 以 很 容易 地 结合 到 硬件 中 实现 ， 这 就 是 设备 控制 器 (device controller) 要 做 的 第 二 件 事 (将 设备 连接 到 
总 线 是 第 一 件 事 )。 

设备 与 控制 器 之 间 的 接口 对 设备 制造 商 来 说 很 重要 ， 而 软件 设计 者 是 不 关心 的 。 设 备 与 控制 器 间 的 接 
口 ， 涉 及 到 各 设备 制造 商 间 的 设备 互 连 方式 的 问题 ，SCSE (小 型 计算 机 品行 接口 ) 就 是 一 个 这 方面 接口 的 
例子 。 
总 线 与 控制 器 间 的 接口 对 任何 想 要 将 设备 连接 到 计算 机 的 用 户 都 很 重要 ， 只 有 连接 上 以 后 ， 设 备 才 可 
能 与 计算 机 的 其 他 部 件 相互 操作 。 然 而 ， 与 设备 -控制 器 间 的 接口 类 似 ， 概 念 上 总 线 与 设备 控制 器 间 的 接 
口 也 对 软件 透明 。 

图 4-8 中 显示 了 到 硬件 控制 器 的 一 个 概念 化 的 软件 接口 。 各 个 控制 器 的 具体 接口 则 各 不 一 样 。 接 口 设 
计 的 目标 就 是 使 软件 能 操作 设备 〈 经 由 控制 器 ) ， 并 能 使 其 行为 与 设备 操作 同步 。 控 制 器 结合 了 两 个 标志 
位 作为 其 状态 寄存 器 接口 的 一 部 分 : busy 和 done, 

m 如 果 两 个 标志 位 都 设 为 0 (或 FALSE) ， 软 件 就 可 以 放置 一 个 命令 到 命令 寄存 器 ， 从 而 激活 设备 。 当 
软件 将 数据 放 人 数据 寄存 器 后 ， 设 备 就 可 以 进行 输出 操作 了 。 

m 一 个 新 的 1/0 命令 的 出 现 引起 控制 器 将 busy 标志 位 设 为 TRUE， 并 开始 工作 ， 输 出 操作 使 得 将 数据 
寄存 器 中 的 数据 写 到 设备 ， 而 输入 操作 会 使 得 一 个 读 操作 命令 送 到 设备 ， 进 程 通过 检查 状态 寄存 器 
来 检测 操作 状态 。 

BS I 人 O 〇 操作 完成 后 (成 功 或 失败 )， 设 备 控制 器 会 清 busy 标志 位 ， 而 置 上 done 标志 位 。 当 完成 读 操 
作 后 ， 设 备 会 将 数据 拷贝 到 数据 寄存 器 ， 当 完成 写 操作 后 ， 数 据 会 从 控制 器 中 的 数据 寄存 器 拷贝 到 
设备 中 。 

里 如 果 在 写 操作 后 ， 设 备 的 标志 位 都 置 为 FALSE， 那 么 就 可 以 安全 地 写 新 数据 到 控制 器 的 数据 寄存 器 。 
如 果 是 从 设备 读数 据 ， 软 件 从 控制 器 中 读 取 数据 后 ， 控 制 器 清 done 标志 位 ， 表 明 设 备 已 准备 好 可 
以 继续 使 用 。 
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busy | done 





图 4-8 概念 化 的 设备 控制 器 接口 

TE: 驱动 程序 - 控制 器 接口 包含 了 许多 不 同 的 寄存 器 。 其 中 包含 了 done 和 busy 标 志 位 和 错误 状态 标志 位 。 驱 动 

程序 和 控制 器 通过 这 些 域 来 进行 交互 ， 协 调 它们 之 间 的 行为 。 

如 果 控 制 器 遇 到 了 不 可 克服 的 错误 ， 那么 在 它 终止 时 ， 它 会 设置 状态 寄存 器 中 的 错误 码 域 。 控 制 器 中 
必须 包含 少量 的 存储 器 ， 在 CPU 中 的 程序 取 走 数据 之 前 ， 用 于 临时 性 地 保存 从 设备 读 入 的 数据 ; 如 果 是 
写 数据 ， 存 储 器 也 需要 保存 等 待 写 到 设备 中 的 数据 。 这 个 存储 器 称 为 缓冲 区 (buffer) ， 用 于 增加 设备 与 
CPU 操作 的 交 迭 运行 机 会 〈 参 见 第 $ 章 )。 

CPU 的 正常 操作 独立 于 所 有 设备 的 操作 ， 对 此 好 
的 一 方面 是 : 设备 可 以 和 CPU 同时 运行 。 然 而 ， 如 果 
软件 想 要 控制 设备 的 操作 ， 软 件 需要 确定 设备 什么 时 
候 是 忙 的 ， 什 么 时 候 完 成 了 以 前 交 给 它 的 上 作 ， 什 么 
时 候 碰 上 一 个 控制 器 发 生 了 不 能 恢复 的 错误 等 。busy- 
和 done 标志 位 是 必 不 可 少 的 ， 设 备 可 以 使 用 它们 将 发 
生 的 事件 通知 给 软件 ， 反 之 亦 然 。 


4.4.2 直接 内 存 访问 


迄今 为 止 ， 在 我 们 讨论 的 LO 设备 中 ，CPU 负责 
将 数据 在 控制 器 数据 寄存 器 和 主 存储 器 间 进 行 传输 





( 见 图 4-9a)。 设 备 驱 动 程序 将 进程 地 址 空间 内 的 数据 a) b) 
拷贝 到 控制 器 ， 用 来 进行 输出 操作 。 反 之 ， 将 控制 器 图 4.9 直接 内 存 访问 


数据 寄存 器 内 的 数据 拷贝 到 主 存 进 行 输入 操作 。 当 注 : a) 传统 的 设备 使 用 CPU 来 进行 设备 控制 器 和 主 
CPU 想 要 将 主 存 的 一 块 数据 传输 到 控制 器 的 数据 寄存 存储 器 间 的 数据 移动 ;，b) DMA 控制 器 可 以 在 


器 时 ， 它 要 执行 如 下 代码 段 : 没有 CPU 的 于 预 下 对 机 器 的 主 存储 器 进行 读 写 。 
load R2, =LENGTH_OF_BLOCK // R2 is index reg 
loop: load Rl, [data_area, R2] // Load the block[i] 
store R1, OxFFFF0124 // Put in ctlr data reg 
incr R2 // Increment index 
bge loop // Test for loop termination 


在 大 多 数 情 况 下 ， 当 从 设备 读 人 数据 时 ， 程 序 员 想 要 将 它 拷贝 进 主 存 。 相 似 地 ， 当 要 对 设备 进行 写 操 
ER, BCE EFF. CPU 所 做 的 唯一 工作 就 是 将 物理 数据 块 在 主 存 和 设备 间 进 行 传输 。 

直接 内 存 访 问 (DMA) 控制 器 可 以 在 没有 CPU 干预 的 情况 下 ， 将 信息 写 到 主 存储 器 中 ,或 从 主 存储 
器 中 读 人 信息 ( 见 图 4-9b)。DMA 控制 器 硬件 被 设计 用 来 在 主 存储 器 和 控制 器 间 传 输 数 据 ， 而 且 不 用 CPU 
的 于 预 ， 它 和 CPU 软件 使 用 的 是 相同 的 算法 〈 然 而 ， 设 备 在 和 内 存 直接 进行 数据 传输 时 ， 碰 巧 CPU 同时 
需要 总 线 ， 则 CPU 要 和 控制 器 竞争 总 线 的 使 用 )。 概 念 上 ，DMA 控制 器 可 以 在 设备 和 内 存 间 直 接 进 行 读 
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和 写 ， 所 以 DMA 控制 器 并 不 需要 数据 寄存 器 。 

设备 驱动 程序 就 像 管理 传统 的 控制 器 一 样 来 管理 DMA 控制 器 。 和 传统 的 控制 器 一 样 ， 驱 动 程序 也 使 
用 busy 和 done 标志 位 来 同步 与 控制 器 的 操作 。 由 于 是 DMA 控制 器 读 写 内 存 块 ， 设 备 驱动 程序 仅 需 要 提 
供 主 存储 器 地 址 给 控制 器 ， 主 存储 器 地 址 是 有 关 主 存储 器 数据 块 的 指针 。 

因为 CPU 不 必 关 心 控制 器 和 主 存储 器 间 的 数据 传输 ， 所 以 DMA 能 极 大 地 提高 机 器 的 1/0 HERE. CPU 
可 以 启动 一 个 DMA 数据 块 传输 ， 在 DMA 传输 执行 期 间 ，CPU 可 以 执行 与 DMA 控制 器 无 关 的 其 他 指令 。 
相似 地 ， 控 制 器 不 用 通过 CPU 来 传输 主 存 数据 ， 由 于 没有 同步 带 来 的 延迟 ， 它 的 数据 传输 也 更 快 一 些 。 


4.4.3 存储 映射 MO 


可 通过 软件 对 控制 器 的 寄存 器 进行 读 写 来 管理 MO 设备 。 计 算 机 设计 者 必须 确定 机 器 的 指令 系统 中 要 
包含 哪些 指令 ， 使 得 利用 这 些 指 令 可 以 操作 每 个 控制 器 的 寄存 器 。 

传统 上 ， 机 器 指令 集 包 括 了 特定 的 IO 指令 用 来 完成 MO 任务。 例如， 为 了 执行 VOR, HORE 
要 包括 以 下 指令 : 

input device address 

output device address 

copy_in CPU register, device address, controller register 


copy_out CPU_register, device address, controller_register 
test CPU register, device_address 


每 条 1/O 指令 通过 表示 控制 器 的 唯一 硬件 标识 符 来 设 定 设备 地 址 。input 指令 可 以 将 读 操作 放 到 指定 
设备 的 命令 寄存 器 。output 指令 可 以 将 写 操作 放 人 命令 寄存 器 (如 果 设 备 忙 ， 控 制 器 会 忽略 试图 执行 的 
input 和 output 指令 ， 准 确 结果 依赖 于 控制 器 的 设计 )。copy in 指令 会 将 指定 控制 器 的 数据 寄存 器 里 的 
内 容 复制 到 CPU 寄存 器 中 去 ， 而 copy_ out 指令 会 将 CPU 寄存 器 的 内 容 复制 到 控制 器 的 数据 寄存 器 中 去 。 
test 指令 会 将 特定 的 状态 寄存 器 的 内 容 复制 到 CPU 寄存 器 中 去 。 

图 4-10 描述 了 存储 映射 1/O 的 方法 .并 与 传统 








- 
的 方法 进行 了 比较 。 对 设备 i 的 第 j 个 寄存 器 ， 它 有 mal 主 存 主 存 
一 个 二 维 的 地 址 如 (i, j)， 其 中 i 是 设备 地 址 , jE) | 
设备 i 内 的 命令 寄存 器 、 状 态 寄 存 器 或 数据 寄存 器 SS 二 -一 二 
的 地 址 。 例 如 ， 如 下 汇编 语言 语句 : io 设备 0 
copy_in R3,0x012,4 , © —— 
使 计算 机 将 设备 地 址 为 0x012 的 控制 器 内 的 数据 寄 。 设备 | a ETEN 
Fear 4 的 内 容 ， 复 制 到 CPU 的 R3 寄存 器 中 。 地 址 CO OI 
在 将 1/O 寄存 器 映射 到 存储 地 址 空间 的 方法 中 ， SS | 
设备 并 没有 一 个 特定 的 设备 地 址 ， 它 是 与 逻辑 主 存 设备 ni 设备 n 
储 器 地 址 相关 联 的 。 可 被 软件 引用 的 每 个 设备 部 件 (=H | [CEH] 
都 被 指定 了 一 个 主 存 地 址 ， 设 备 0x0012 可 能 有 一 从 a) b) 
OxFFFFO120 到 OxFFFFOI2F 的 地 址 块 ， 可 用 来 引用 sth Ae spb pom 
、 图 4-10 对 设备 进行 编 址 
设备 的 命令 寄存 器 、 状 态 寄存 器 和 14 个 数据 霖 存 。 注 ， 图,) sem Tala IESE. 
器 。 这 种 方式 下 如 果 要 完成 Copy _ in 指令 相同 的 任 储 映射 1/O (图 b)) 通过 将 每 个 设备 寄存 器 绑 
务 ， 相 应 的 存储 映射 I/ 〇 指令 可 写 为 : 定 到 计算 机 的 主 存储 地 址 空间 中 去 ， 减 少 了 特 
load R3, OxFFFF0124 定 IMO 指令 的 数目 。 当 软件 引用 相应 的 逻辑 主 


在 存储 映射 LO 的 方法 中 ， 可 以 减少 处 理 器 中 ” 存 地 址 时 ， 它 实际 上 引用 的 是 控制 器 的 寄存 器 。 


指令 类 型 的 数目 ， 这 是 因为 主 存 的 load/store 指令 可 用 来 对 设备 寄存 器 进行 操作 。 在 传统 的 方法 中 , it 
算 机 必须 使 用 特定 的 1/ 〇 指令 读 写 设备 寄存 器 。 
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4.5 中 断 
一 旦 设备 驱动 程序 启动 设备 工作 ， 应 用 程序 要 等 到 1/O 操作 完成 后 才能 继续 执行 。 例 如 ， 你 写 了 以 下 
代码 


read (devID, myData, dataLength) ; 
x=f (myData, dataLength, ...); 


赋值 给 x 的 语句 要 等 到 read 操作 将 信息 读 人 mypata 之 后 
才能 执行 。 这 意味 着 设备 驱动 程序 软件 需要 启动 设备 ， 然 后 等 
待 直 到 设备 完成 操作 为 止 ( 见 图 4-11)。 这 种 方法 存在 一 个 问 
题 : 设备 驱动 程序 必须 持续 地 检查 busy 和 done 标志 位 ， 以 确 
定 什么 时 候 设备 已 经 完成 了 读 操作 。 当 控制 器 空闲 时 ， 它 也 要 


// Start the device 


while ( (busy= =1) || (done==1) ) 
wait ( 
// Device I/O complete 





持续 测试 这 些 标志 位 ， 在 驱动 程序 等 候 命令 完成 时 ， 它 除了 轮 
询 就 没什么 别 的 事 可 做 了 。 然 而 ， 在 多 道 程序 设计 环境 中 ， 在 
设备 驱动 程序 重复 测试 标志 位 时 〈 称 为 忙 等 待 )， 本 可 以 做 些 
其 他 的 工作 。 上 述 这 种 重复 测试 标志 位 的 方法 叫做 轮 询 I/O。 
当 CPU 在 重复 检查 标志 位 时 ， 就 称 出 现 了 忙 等 待 (busy-wait) 
状态 。 进 程 使 用 CPU， 但 逻辑 上 又 在 等 待 设备 完成 操作 ， 因 而 
忙 等 待 浪费 了 一 些 处 理 器 周期 ， 而 这 些 处 理 器 时 间 本 可 以 被 其 
他 进程 更 好 地 使 用 。 

如 果 请 求 O 操作 的 进程 /线程 并 不 使 用 处 理 器 来 连续 检 
查 控制 器 的 状态 ， 那 么 就 会 出 现 这 种 情况 ， 设 备 完成 了 操作 ， 
过 了 一 段 时 间 进 程 才 检 查 并 确定 结束 ， 而 这 又 会 增加 进程 由 于 
等 待 I/O 操作 的 结束 而 被 阻塞 的 时 间 。 

很 明显 ， 如 果 设 备 一 旦 完成 I/O 操作 就 通知 处 理 器 ， 那 么 
设备 和 CPU 间 就 会 获得 最 有 效 的 交 迭 运行 ， 这 将 消除 忙 等 待 
并 且 可 做 到 最 小 化 空 闪 时间。 通过 结合 加 入 设备 中 断 (device 
interrupts) ， 修 改 汉 诺 依 曼 体 系 结构 ， 能 够 实现 这 种 方法 。 当 设备 完成 MO 操作 后 ， 使 用 设备 中 断 就 可 以 
通知 处 理 器 。 这 需要 更 复杂 的 控制 单元 和 设备 控制 器 ， 首先 ，CPU 中 要 有 一 个 中 断 请 求 (interrupt re- 
quest) 标志 位 ，InterruptRequest。 并 且 修改 处 理 器 控制 部 件 ， 因 而 它 可 以 在 每 条 指令 的 取 指 - 执行 周期 
中 检查 该 标志 位 (AE 4-12)。 概 念 上 ， 使 用 硬件 实现 的 “或 逻辑 "， 把 所 有 设备 的 done 标志 位 连接 到 处 
理 器 控制 部 件 的 中 断 请 求 标志 位 ， 如 图 4-13 所 示 。 无 论 什么 时 候 某 个 设备 控制 器 的 done 标志 位 置 位 ，In- 
terruptRequest 就 被 置 位 了 。 由 此 当 控 制 单元 完成 执行 指令 后 ， 就 会 知道 某 个 设备 完成 了 操作 。 
| white (haltFlag not set during execution) { 

IR = memory(PC); 

PC = PC + 1; 

execute(IR); 

if (InterruptRequest) {/* Interrupt the current process */ 
memory[0} = PC; /* Save the current PC in address 0 */ 


PC = memory([1]; /* Branch indirect through address 1 */ 
+ } 





while ( (hsy-=0) && (done==1) ) 
wait(); 

// Do the I/O operation 
busy=1; 





图 4-11 轮 询 1/0 
TE: 轮 询 1/0 需要 软件 对 设备 的 busy-done 
标志 进行 测试 来 确定 什么 时 候 设 备 完 
成 了 LO 操作 。 这 在 设备 驱动 程序 中 
引 人 了 忙 等 待 (busy-wait) 状态 。 











图 4-12 带 中 断 的 取 指 一 执行 周期 
TE: 对 控制 单元 进行 修改 ， 它 在 完成 每 条 指令 执行 后 都 要 检查 InterruptRequest 标志 。 


正如 在 修改 过 的 控制 单元 算法 中 所 指示 的 〈 见 图 4-12)， 中 断 使 得 处 理 器 停止 当前 指令 序列 的 执行 ， 
跳 转 到 新 的 指令 序列 执行 。 新 指令 序列 的 起 始 地 址 存储 在 主 存 的 某 一 个 地 方 〈 记 为 menory [1])。 当 中 断 
发 生 时 ， 硬 件 在 memory [0] 中 保存 中 断 前 的 程序 计数 器 (如 果 没 发 生 中 断 的 话 ， 将 会 继续 执行 menory 
[0] 中 所 指示 的 指令 )。 为 了 能 更 好 地 工作 ， 当 操作 系统 初始 化 时 ， 它 在 memory [1] 中 放置 了 中 断 处 理 程 





HEDL t H 79 





序 人 口 地 址 。 这 样 无 论 什么 时 候 设 备 完 成 了 操作 并 引发 一 个 中 断 ， 都 将 会 调用 中 断 处 理 程 序 。 因 为 无 论 何 
时 设备 完成 操作 中 断 处 理 程 序 都 会 运行 ， 所 以 就 没有 必要 对 设备 进行 轮 询 来 检测 它 是 否 完成 。 

当中 汤 处 理 程序 开始 执行 时 ，CPU 寄存 器 中 存放 的 是 中 
断 进程 使 用 的 值 (除了 PC 外 )。 中 断 处 理 程序 必须 立即 完成 
上 下 文 切 换 (context switch), 保存 所 有 被 中 断 进程 使 用 的 通 
用 寄存 器 和 状态 寄存 器 的 值 ， 并 装 人 执行 中 断 程序 需要 的 
CPU 寄存 器 值 ， 从 而 能 处 理 1/0 操作 的 结束 。 如 图 4-14 所 
示 ， 中 断 处 理 程 序 检查 各 个 设备 的 done 标志 位 ， 以 确定 哪 一 
个 设备 引发 了 中 断 。 

图 4-13 中 所 示 的 InterruptRequest 标志 位 和 图 4-14 中 所 图 4.13 检测 中 断 





示 的 中 断 处 理 程序 代码 框架 ， 表示 了 设备 在 一 条 机 器 指令 内 ， YE: (1) CPU 采用 了 InterruptRequest 标 
中 断 CPU 并 处 理 IMO 设备 操作 完成 的 方法 。 现 代 计 算 机 扩展 志 位 。 (2) 当 任 一 设备 的 busy 标志 
了 这 种 机 制 ， 因 而 要 比 这 种 简单 的 机 制 能 够 更 快速 地 确定 中 位 变 成 0 时 ，InterruptRequest 标志 
断 源 。 这 种 思想 是 ， 在 硬件 中 结合 了 一 个 中 断 向 量 (interrupt 位 置 为 1。(3) 控制 单元 通过 检测 In- 
vector) ， 而 不 只 是 一 个 信和 号 标志 位 ， 使 用 一 个 中 断 请 求 向 量 terruptRequest 来 检测 发 生 的 中 断 。 
替代 了 图 4-13 中 的 InterrruptRequest 标志 。 如 果 系 统 包 含 (4) 用 处 理 中 断 的 软件 地 址 装 人 PC。 


NRE, FAM RAHN K 位 ， 那 么 就 有 N/K 个 设备 done 标志 位 与 向 量 的 某 个 位 相连 接 。 而 且 ， 
主 存 中 有 一 个 包含 K 个 不 同 中 断 处 理 程序 入口 点 的 中 断 处 理 表 。 如 果 中 断 向 量 中 的 第 i 个 位 被 置 为 TRUE， 
那么 正常 的 指令 顺序 被 中 断 ， 如 图 4-12 所 示 ， 并 且 中 断 处 理 表 中 第 i 个 中 断 处 理 程序 被 启动 。 


Interrupt_Handler{ 
saveProcessorState{); 
for (i=0; i<Number_of devices; i++) 


if (device[i].done == 1) goto device_handler(i); 
/* Something wrong if we get here */ 


} 








图 4-14 中断 处 理 程序 
注 : CPU 采用 了 一 个 InterruptRequest 寄存 器 。 当 任何 设备 完成 IO 操作 时 ， 它 将 InterruptRequest 寄存 器 设 
为 1。 正 如 图 4-11 所 显示 的 ， 控 制 单元 通过 检查 InterruptRequest 寄存 器 ， 它 可 以 检测 到 发 生 的 中 断 ， 然 
后 调用 中 断 处 理 程序 。 


如 果 在 同一 指令 周期 内 有 两 个 或 多 个 设备 完成 了 操作 ， 那 么 图 4-14 中 的 代码 框架 就 会 只 发 现 第 一 个 
完成 的 设备 。 一 旦 引起 中 断 ， 中 断 处 理 程 序 就 会 分 支 转移 到 该 设备 的 设备 处 理 程序 代码 (device handler 
code) 处 执行 。 这 个 动作 会 引起 done 标志 清 位 ， 并 且 LIMO 操作 结束 。 结 束 处 理 还 包括 通知 因 等 待 1/O 操作 
而 被 阻塞 的 进程 重新 就 绪 。 

另 一 个 必须 要 解决 的 问题 是 ， 当 中 断 处 理 程序 在 执行 过 程 中 ， 如 果 又 产生 了 一 个 中 断 怎么 办 。 也 就 是 
说 ， 存 在 竞争 状态 (race condition) ， 即 在 处 理 器 处 理 完 第 一 个 中 断 之 前 ， 第 二 个 中 断 可 能 发 生 。 这 取决 于 
第 二 个 中 断 发 生 时 第 一 个 中 断 处 理 程序 执行 的 位 置 (如 是 正在 响应 中 断 的 阶段 还 是 在 处 理 阶 段 )， 处 理 器 
的 状态 可 能 会 丢失 ， 或 者 设备 的 处 理 过 程 会 永远 不 能 完成 。 当 然 ， 设 备 处 理 程 序 的 某 些 部 分 可 以 被 中 断 ， 
随后 重新 恢复 执行 并 不 会 受到 影响 。 

例如 ， 当 中 断 处 理 程序 开始 执行 时 ， 它 会 保存 被 中 断 进 程 的 状态 ， 并 确定 引起 中 断 的 原因 。 而 在 完成 
这 些 操 作 时 ， 如 果 又 出 现 另 一 个 中 断 ， 那 么 就 很 难保 证 对 最 初 被 中 断 进 程 状态 信息 的 正确 保存 ， 并 难以 检 
测 最 初 的 中 断 。 如 果 第 二 个 中 断 的 中 断 处 理 程 序 发 生 了 错误 ， 那么 其 中 的 一 个 I/O 操作 就 会 失败 。 如 果 想 
要 机 器 可 靠 地 完成 MO 操作， 那么 就 必须 避免 在 中 断 处 理 程序 执行 过 程 中 ， 再 发 生 另 外 的 中 断 。 

竞争 状态 可 以 通过 结合 防止 中 断 “ 正 在 执行 的 中 断 处 理 程序 ”的 机 制 来 处 理 。 假 定 机 器 设计 包含 了 一 
个 中 断 使 能 标志 位 InterruptEnabled, — 4 disableInterrupt 指令 用 于 置 FRLSE， 并 且 一 条 enableinter- 
rupt 指令 用 于 置 TRUE。 这 些 指令 也 是 通过 修改 处 理 器 控制 单元 实现 的 ， 因 而 InterruptEnabled 可 以 如 图 
4-15 中 描述 的 那样 被 检查 ， 从 而 决定 中 断 发 生 后 的 行为 。 如 果 在 中 断 发 生 之 前 执行 了 disableInterrupt 指 
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令 ， 后 来 标志 位 InterruptRequest 被 置 位 为 TRUE， 但 因 标志 位 InterruptEnabled 为 FRLSE， 因 此 控制 单元 
忽略 该 中 断 。 在 中 断 处 理 程 序 完成 它 的 代码 序列 后 ， 它 执行 enable Interrupt 指令 ， 这 时 就 可 以 对 1/0 完 
成 操作 进行 中 断 处 理 了 。 

中 断 不 会 改变 在 处 理 器 上 执行 的 进程 的 控制 流 。 一 旦 中 断 使 能 指令 执行 ， 标 志 位 InterruptEnabled 会 
置 位 为 TRUE， 那 么 任 一 个 被 屏蔽 的 未 处 理 中 新， 就 又 跟 以 前 一 样 被 中 断 处 理 程序 分 派 到 合适 的 设备 处 理 程 
序 处 理 。 中 断 屏 项 后 发 生 的 第 一 个 中 断 ， 相 应 的 done 标志 位 信息 也 会 保存 下 来 ， 并 一 直 维 持 TURE 值 ， 直 
到 设备 处 理 程 序 被 执行 。 如 果 在 中 断 处 理 程 序 处 理 一 个 中 断 时 ， 又 发 生 了 第 二 个 或 更 多 的 中 断 ， 硬 件 可 能 
不 会 保存 随后 的 中 断 即 后 面 的 中 断 可 能 丢失 了 。 





if(InterruptRequest && InterruptEnabled) { 
/* Interrupt current process */ 
disableInterrupts(); 


memory[0]} = PC; 
PC = memory[1]; 


} 











图 4-15 ”中断 屏蔽 
TE: InterruptEnabled 标志 位 可 用 来 屏蔽 中 断 。 如 果 标 志 为 FALSE， 则 中 断 不 会 被 响应 ， 不 改变 原 指令 执行 序 
列 。 否 则 ， 中 断 就 会 按 前 面 描述 的 那样 发 生 。 


尽管 中 断 会 暂时 地 挂 起 一 个 线程 的 执行 ， 但 当 线程 恢复 执行 时 ， 它 并 不 改变 程序 控制 流 。 在 所 有 的 中 
断 处 理 完成 后 ， 被 中 断 的 线程 会 恢复 执行 ， 就 好 像 没 发 生 过 中 断 一 样 ， 它 继续 执行 下 一 条 指令 。 


再 看 自 陷 指令 


3.2 节 中 介绍 了 CPU 中 用 于 区 分 特权 指令 和 用 户 指令 的 模式 位 。 运 行 在 用 户 模式 下 的 进程 想 要 执行 需 
要 特权 指令 完成 的 操作 ， 它 可 以 通过 调用 trap 指令 来 完成 。trap 指令 将 CPU 模式 切换 到 核心 态 并 开始 执 
行 可 信 内 核 代码 。 假 定 trop 指令 的 汇编 语言 表示 为 : 


trap argument 


图 4.16 (和 图 3-8 相似 ) 图 示 了 trap 指令 的 行 
为 。 其 思想 就 是 ， trap 应 该 完成 一 个 函数 调用 操作 
( 见 图 中 灰色 的 线 )。trap 将 CPU 切换 到 核心 模式 ， 
然后 通过 系统 调用 表 间接 进入 内 核 代码 。trap 和 中 断 
向 量 的 行为 类 似 ， 系 统 调用 表 对 应 于 设备 驱动 程序 人 
口 点 。 当 模式 位 被 转 到 核心 模式 下 时 ， 这 种 简单 的 机 
制 为 用 户 模式 下 的 进程 执行 核心 代码 提供 了 一 种 安全 
的 方法 。 因 为 它 和 中 断 极为 相似 ， 自 陷 也 称 “ 软 中 图 4.16 trap 指令 操作 
断 ”。 


4.6 当代 传统 计算 机 


我 们 再 来 看 看 用 来 引发 计算 机 组 织 结构 讨论 的 冯 ' 诺 依 曼 计算 机 的 体系 结构 图 (RA 42, 4174 
更 详细 的 描述 )。 我 们 已 经 知道 CPU 由 ALU 和 控制 单元 组 成 。 体 系 结构 的 这 一 部 分 负责 从 主 存储 器 中 取 
程序 指令 和 执行 程序 指令 。I/O 设备 通过 总 线 连接 到 这 种 体系 结构 中 。 软 件 可 通过 读 写 设备 控制 器 的 寄存 
器 来 控制 设备 。 对 输入 操作 来 说 ， 来 自 设备 的 数据 被 送 到 CPU 寄存 器 ， 然 后 进入 主 存储 器 。 对 输出 来 说 ， 
过 程 则 相反 。 
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Æ 4-17 冯 : 诺 依 曼 计 算 机 体系 结构 概要 
TE: 此 图 是 图 4-2 的 详细 描述 ， 我 们 增加 了 寄存 器 和 硬件 功能 单元 等 细节 部 分 。 右 面 的 图 标 是 用 来 表示 汉 诺 依 
曼 计算 机 的 。 


` 今天 ,我 们 把 服务 器 、 桌 面 计 算 机 和 笔记 本 计算 机 /掌上 电脑 看 作 传统 计算 机 ， 把 用 于 移动 计算 、 科 
学 数字 计算 等 的 计算 机 称 为 专门 计算 机 。 这 些 机 器 将 在 下 面 分 开 讨 论 。 

我 们 使 用 桌面 计算 机 和 笔记 本 电脑 来 解决 编程 任务 、 读 邮件 、 浏 览 网 页 、 准 备 排 版 文档 和 许多 其 他 事 
情 。 这 些 机 器 是 具有 多 道 程 序 设计 操作 系统 的 单 用 户 汉 . 诺 依 曼 计算 机 。 它 们 通常 使 用 32 位 微 处 理 器 来 构 
造 ，CPU 构建 在 单 块 芯片 上 。 在 本 书 的 写作 期 间 ， 时 钟 频率 超过 了 2GHz。 大 多 数 的 机 器 使 用 了 能 以 频率 
400MHz (CPU 的 速度 远 超过 了 总 线 的 速度 ) 来 进行 传输 的 32 位 总 线 ， 主 存储 器 配置 达到 4GB, 访问 时 间 
. 接近 50ns。 笔 记 本 电脑 在 物理 大 小 和 速度 上 与 桌 上 电脑 有 很 大 的 差别 。 

桌面 计算 机 能 和 大 量 的 设备 一 起 工作 ， 几 乎 任何 种 类 的 计算 机 设备 都 可 以 连接 到 桌面 计算 机 。 除 了 将 
设备 连接 到 总 线 上 外 ， 计 算 机 也 支持 很 多 其 他 的 内 部 总 线 ， 包 括 USB 和 Firewire。 这 些 二 级 总 线 可 适应 不 
同 的 外 部 设备 (如 数码 照相 机 和 MPEG 播放 器 ) 。 

学 校 可 能 在 密室 里 有 多 个 服务 器 ， 这 些 机 器 用 来 存储 和 处 理学 校 的 全 局 信息 。 在 一 些 情况 下 ， 你 可 以 
使 用 它们 来 解决 家 庭 作业 和 接收 邮件 。 服 务 器 是 大 的 、 多 道 程序 设计 计算 机 ， 一 般 可 经 由 网 络 和 交互 终端 
进行 访问 。 几 乎 所 有 的 组 织 都 有 一 个 或 更 多 这 样 的 机 器 。 事 实 上 ， 所 有 的 服务 器 都 是 冯 : 诺 依 曼 计算 机 ， 
其 上 有 分 时 操作 系统 。 服 务 器 的 硬件 和 桌面 计算 机 并 没有 很 大 的 不 同 ， 服 务 器 的 微 处 理 器 和 桌面 计算 机 的 
微 处 理 器 有 很 多 相似 之 处 ， 早 期 的 64 位 
CPU 用 在 一 些 服务 器 上 ， 这 些 机 器 可 以 使 
用 超过 4GB 的 主 存储 器 。 还 有 ， 服 务 器 的 
总 线 速度 (及 设备 速度 ) 比 桌 面 计算 机 的 
要 快 得 多 。 


机 器 的 启动 


当 计 算 机 启动 时 ， 硬件 进程 ( 见 4.2 
节 ) 在 固化 的 ROM 位 置 开 始 执行 。 计 算 
机 制造 商 在 ROM 中 国定 的 位 置 存储 了 一 


CMOS 





个 定制 的 自 举 程序 (POST) ( 见 图 4-18)。 图 4-18 Intel 系统 初始 化 

POST 是 一 组 诊断 程序 ， 它 可 在 任何 其 他 Œ: 当 系统 启动 时 ，PC 内 容 为 POST 程序 的 人 口 点 。 在 POST 
的 软件 被 安装 之 前 来 对 特定 的 硬件 进行 测 完成 后 ，BIOS 代码 读 CMOS 存储 器 来 得 到 不 同 的 启动 参 
试 。POST 程序 可 被 安装 在 机 器 上 的 任何 数 ， 如 启动 设备 的 标识 。 引 导 程序 最 后 会 将 操作 系统 装载 


操作 系统 所 使 用 。 到 主 存储 器 。 
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在 Intel 微 处 理 器 上 ，IBM 基本 输入 /输出 系统 (BIOS) 程序 也 存储 在 ROM 中 。 在 POST 完成 后 ， 配 
置 代 码 会 从 机 器 的 CMOS 存储 器 中 读 取 基 本 的 启动 参数 ( 见 图 4-18 中 的 控制 流 )。 启 动 参数 包括 了 计算 机 
引导 设备 的 指示 、 设 备 上 引导 记录 的 位 置 ， 以 及 引导 记录 的 字 节 数 。CMOS 存储 器 最 初 是 使 用 CMOS 芯片 
技术 来 制造 的 ， 主 要 是 因为 CMOS 芯片 耗 电量 较 少 〈 但 现代 的 计算 机 可 使 用 很 多 其 他 种 类 的 芯片 技术 )。 
这 使 得 信息 可 以 存储 在 内 存 中 ， 它 可 由 微型 电池 如 手表 电池 来 供电 。 当 机 器 切断 电源 时 ，CMOS 内 存 内 容 
不 会 丢失 。 例 如 ，CMOS 存储 器 包含 了 可 识别 哪个 设备 包含 了 初始 化 引导 代码 的 信息 。 图 4-19 展示 了 引 
导 进 程 的 PC 内 容 为 地 址 0x100， 指 向 了 存储 在 ROM 中 的 “POST&BIOS” 程 序 的 和 人口 点 。 





0x0000100 






0x0001000 


= e ES 0x0008000 
0x000A000 


图 4-19 机 器 的 引导 
TE: 在 机 器 的 引导 过 程 中 ， 我 们 看 到 引导 进程 在 一 个 固定 的 位 置 (在 主 存储 器 的 ROM 部 分 ) 开始 执行 。(1) 加 载 
引导 程序 加 载 器 (bootstrap loader), (2) 加 载 全 功能 的 加 载 器 (full-function loader), (3) 加 载 操 作 系 统 。 


BIOS 程序 的 最 后 一 部 分 〈 加 载 操作 系统 的 第 一 步 ) 是 运行 图 4-20 中 的 、 步 又 (1) 中 所 示 的 简化 引导 
程序 加 载 器 。 每 个 操作 系统 和 计算 机 都 用 自己 的 引导 程序 过 程 ， 步 又 (2) 中 ， 引 导 程 序 加 载 器 从 计算 机 
的 引导 磁盘 上 的 一 个 固定 区 域 拷贝 另 一 个 全 功能 加 载 器 到 主 存 。 新 的 加 载 器 包括 了 从 特定 磁盘 设备 加 载 其 
他 软件 所 需 的 细节 。 在 这 个 复杂 的 加 载 器 被 加 载 后 ， 控 制 单元 跳 到 该 加 载 器 ， 它 然后 加 载 操作 系统 〈 见 图 
中 的 步骤 (3))。 

图 4-20 是 一 个 ROM 引导 程序 加 载 器 的 示例 。 加 电 序列 会 使 得 硬件 执行 下 面 的 指令 


Load PC, FIXED LOC 





FIXED LOC: // Bootstrap loader entry point 
load R1, =0 
load R2, =LENGTH_OF_TARGET 
// The next instruction is really more like 
// a procedure call than a machine instruction 
// It copies a block from BOOT_DISK 
// to BUFFER_ADDRESS 
read BOOT DISK, BUFFER_ADDRESS 
loop: load R3, [BUFFER_ADDRESS, R1] 
store R3, [PIXED_DEST, R1] 
incr R1 
bleq Rl, R2, loop 
br FIXED_DEST 











图 4-20 引导 程序 加 载 器 


CE: 引导 程序 加 载 器 是 一 个 特定 目的 的 加 载 器 ， 它 从 一 个 固定 设备 地 址 拷贝 固定 量 的 信息 到 一 个 固定 的 主 存 地 
址 中 。 


FIXED_ LOC 是 存储 引导 程序 加 载 器 的 ROM 地 址 。 在 这 个 例子 中 ， 引 导 程 序 FF in ak FF ATE ROM 中 ， 
这 样 不 管 计算 机 何 时 开启 ， 它 都 会 一 直 存 在 。 引 导 程 序 加 载 器 会 从 一 一 个 固定 的 磁盘 位 置 FIXED DISK _ AD- 
DRESS 来 读 取 LENGTH _ OF _ TARGET 个 字 ， 将 它们 连续 地 存储 在 FIXED DEST, 在 上 面 的 机 器 语言 的 符号 化 表 
示 中 ， 你 可 以 认为 在 方 括号 内 的 寄存 器 和 地 址 被 用 于 计算 一 个 新 的 地 址 ， 这 个 新 地 址 是 通过 指令 中 的 地 址 
和 相应 的 寄存 器 中 的 内 穿 相 加 得 到 的 。 引 导 程序 加 载 器 从 磁盘 上 的 一 个 固定 位 置 加 载 程序 ， 然 后 无 条 件 地 
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分 支 到 新 加 载 程序 开始 执行 。 
一 日 机 器 完成 了 引导 阶段 并 进入 软件 控制 下 的 正常 运行 ,操作 系统 可 以 设置 PC 来 启动 已 加 载 到 内 存 
中 的 任何 程序 (通过 设置 PC 为 程序 的 入口 点 地 址 )。 


4.7 移动 计算 机 


移动 计算 机 作为 一 种 重要 的 商业 产品 早已 浮现 出 来 ， 首 先 出 现 的 是 个 人 数字 助理 (PDA)。 在 朝 小 型 
化 和 可 移植 性 的 发 展 道路 上 ， 笔 记 本 计算 机 首先 对 个 人 计算 机 的 销售 产生 了 很 大 的 冲击 。 同 时 ， 计 算 器 公 
司 也 开始 将 包含 有 电话 夭 功 能 、 日 历 功能 的 计算 器 大 小 的 设备 推 向 市 场 。 和 掌上 设备 稳固 地 占领 了 市 场 , 它 
包含 了 大 量 的 功能 (日 历 、 联 系 人 表单 、 笔 记 本 等 )， 它 是 作为 一 个 非常 小 的 计算 机 而 出 现 的 。 随 着 其 他 
的 公司 开始 生产 类 似 的 产品 ， 人 们 很 快 知道 这 些小 的 设备 是 计算 机 并 且 可 以 用 于 其 他 更 一 般 的 用 途 (除了 
日 历 功能 和 联系 人 表单 )。 

现在 ， 市 场 上 出 现 了 这 种 需求 ; 希望 PDA 能 和 其 他 的 计算 机 进行 通信 ," 退 一 步 来 说 ， 可 以 使 用 台式 
机 PDA 同步 设施 和 其 他 的 家 用 计算 机 进行 数据 备份 与 更 新 。 随 着 日 益 增长 的 市 场 需求 ， 人 们 期 望 PDA 能 
作为 主机 通过 无 线 网 络 连 接 到 因特网 上 。 在 PDA 性 能 方面 一 个 有 趣 的 折衷 因素 是 : 网 络 的 通信 能 力 与 其 
内 存 大 小 方面 的 权衡 。 如 果 通 信和 链 路 是 可 靠 的 、 持 久 的 、 快 速 的 ， 那 么 PDA 就 没有 必要 采取 大 容量 的 内 
存 ， 因 为 它 可 以 通过 通信 链 路 将 信息 存储 在 服务 器 上 。 随 着 通信 链 路 变 得 越 来 越 快 、 越 来 越 可 靠 ，PDA 越 
来 越 像 一 个 传统 的 个 人 计算 机 。 

移动 计算 机 硬件 的 迅速 发 展 使 得 这 些 计 算 机 可 以 用 在 很 多 领域 中 ， 这 些 领域 需要 大 容量 的 内 存 来 存储 
书籍 、 音 乐 、MPEG 视频 文件 或 者 电影 。 同 时 ， 移 动 计算 机 还 应 该 能 将 流 媒体 和 视频 文件 发 送 给 用 户 ， 流 
媒体 和 视频 文件 可 能 来 自 本 地 存储 设备 也 可 能 来 自 无 线 通信 链 路 。 

现代 的 移动 计算 机 仍然 是 冯 : 诺 依 曼 计算 机 : 它 有 CPU、 主 存 和 设备 。 然 而 ， 也 有 一 些 不 同 的 特征 ; 

曙 物理 上 ， 它 的 体积 比较 小 ， 重 量 也 比较 轻 。 

e 因为 它 的 供电 电源 是 小 电池 ， 为 了 减少 耗 电量 而 限制 了 它 的 速率 。 

m 由 于 它 的 体积 比较 小 ,使 得 它 没有 大 容量 的 主 存储 器 。 

B 通常 情况 下 ，PDA 没有 键盘 。 但 是 ， 它 使 用 触摸 屏 (用 一 根 笔 ) 和 麦克 风 作 为 输入 。 

m 输出 设备 是 小 的 显示 屏 和 扬声器 。 

n 它 通常 没有 外 存储 设备 。 

e 它 可 以 使 用 可 移动 的 设备 〈 如 闪存 、 无 线 网 络 卡 ) 或 其 他 的 设备 (如 全 球 定位 系统 和 摄像 头 )。 

由 于 这 些 特定 的 配置 ， 计 算 机 设计 者 需要 重新 考虑 实现 冯 ' 诺 依 曼 计算 机 的 方法 ,来 使 得 它们 能 很 好 
地 在 这 些 约 束 条 件 下 工作 。 


4.7.1 片上 系统 技术 


PDA 硬件 的 实现 受益 于 日 益 进 步 的 芯片 集成 技术 。 在 20 世纪 90 年 代 后 期 ， 芯 片 制造 商 开 始 设计 片上 
系统 (system-on-a-chip, SOC) 集成 电路 。SOC 的 基本 思想 是 : 考虑 到 微 处 理 器 需要 和 主 存 及 一 些 设备 一 
起 工作 ， 所 以 在 一 块 芯片 上 实现 所 有 这 些 功 能 部 件 。 例 如 ， 用 在 PDA 上 的 SOC 可 以 设计 成 将 一 个 图 形 加 
速 器 或 字符 识别 单元 与 CPU 集成 于 一 个 芯片 上 。 也 可 以 将 CPU 要 访问 的 主 存储 器 集成 到 CPU 芯片 上 ， 
这 样 CPU 就 不 用 通过 总 线 发 送 读 写 请 求 到 单独 的 内 存单 元 了 。( 前 沿 微 处 理 器 也 采用 这 种 集成 方法 ， 称 之 
为 高 速 缓冲 存储 器 ， 我 们 将 在 第 1 章 详细 讨论 ) SOC 中 也 可 加 入 网 络 适 配器 的 功能 ， 尽 管 PDA 还 必须 
包含 用 于 无 线 通信 的 发 射 机 和 接收 机 。 对 流 媒体 的 支持 功能 也 需要 在 SOC 中 实现 ; 在 这 种 情况 下 ， 通 常 
在 设备 或 控制 器 上 实现 的 功能 (如 MPEG 压缩 /解压 功能 ) 可 以 在 SOC 上 实现 。 

前 沿 微 处 理 器 使 用 大 量 的 晶体 管 来 实现 快速 的 CPU。SOC 上 实现 的 CPU 使 用 的 晶体 管 数量 较 少 ， 故 
损失 了 部 分 性 能 。 片 上 其 他 的 晶体 管用 来 实现 片上 集成 的 其 他 功能 。 

SOC 技术 还 在 不 断 进 步 ， 尽 管 SOC 设计 的 基本 考虑 因素 是 确定 将 哪些 功能 添加 到 SOC 中 ， 但 它 的 设 
计 还 是 面临 着 几 方面 的 挑战 。 毕 竟 ， 如 果 SOC 包含 了 PDA 中 不 使 用 的 一 些 功能 ， 则 PDA 开发 商 不 可 能 选 
择 它 作为 系统 的 基础 芯片 。 相 应 地 ， 操 作 系 统 技术 也 必须 进一步 发 展 ， 以 便 可 以 很 好 地 适应 新 的 硬件 环境 
(SOC 和 其 他 的 移动 计算 机 硬件 )。 
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4.7.2 电源 管理 


随 着 笔记 本 计算 机 的 出 现 ， 耗 电量 成 了 计算 机 设计 中 急需 解决 的 问题 。 笔 记 本 计算 机 包含 了 一 个 大 的 
显示 屏 和 一 个 旋转 磁盘 。 当 笔记 本 计算 机 工作 时 ， 它 们 都 会 消耗 大 量 的 电源 。 因 为 显示 屏 和 磁盘 是 不 同 的 
设备 ， 操 作 系统 设计 者 必须 要 实现 这 种 功能 : 能 确定 显示 屏 和 磁盘 还 能 工作 的 时 间 。 如 果 时 间 超 过 某 一 个 
极限 ， 则 设备 就 会 掉 电 。 在 现代 的 笔记 本 计算 机 中 ， 这 是 保存 电池 电量 的 一 个 关键 方法 。 

移动 计算 机 通常 没有 磁盘 ， 所 以 磁盘 电源 管理 并 不 是 问题 。 然 而 ， 移 动 计算 机 的 显示 屏 要 消耗 大 量 的 
电源 。PDA (和 许多 现代 的 笔记 本 电脑 ) 采用 了 可 变 电 源 耗 电 管理 策略 : 如 果 显 示 屏 设置 成 明亮 的 ， 它 要 
消耗 最 大 的 电量 ， 如 果 显 示 屏 设置 成 暗 的 ， 则 消耗 较 少 的 电量 。 对 于 这 些 显示 屏 ， 当 时 间 超 过 某 一 个 极 
限 ， 移 动 计算 机 系统 软件 会 将 显示 器 变 暗 到 一 定 的 程度 ， 这 样 显 示 屏 就 比 以 前 耗 电 少 多 了 。 如 果 显 示 屏 的 
使 用 超过 了 一 个 额外 的 时 间 ， 屏 幕 会 变 得 更 暗 ， 甚 至 关 掉 ， 这 样 更 进一步 减少 了 耗 电 量 。 这 是 移动 计算 机 
显示 屏 的 一 个 重要 特性 。 

许多 在 移动 计算 机 中 使 用 的 CPU 有 另 一 个 特点 : CPU 能 以 不 同 的 时 钟 频率 工作 ， 电 源 耗 电 量 与 工作 
频率 成 正比 。 这 意味 着 如 果 CPU 以 最 高 工作 频率 进行 工作 ， 将 使 用 最 大 电量 。 如 果 它 以 最 高 工作 频率 的 
60% 工 作 ， 仅 消耗 最 大 电量 的 75% Intel StrongARM 微 处 理 器 芯片 家 族 就 是 这 种 处 理 器 的 一 个 例子 
[Hamburgen，et al. ，2001]。 这 使 得 低 成 本 的 电源 消费 成 为 可 能 : 如 果 操 作 系统 确定 CPU 工作 负载 比较 
低 ， 它 能 减少 CPU 执行 的 工作 频率 。 这 意味 着 CPU 性 能 是 低 的 ， 同 样 ， 电 源 耗 电量 也 是 低 的 。 


E- 





示例 : ltsy 移动 计算 机 

今天 ， 市 面 上 有 大 量 的 商用 PDA， 包 括 Palm 掌上 计算 机 、Compaq iPAQ 和 HP Jornada 机 器 。 Itsy 移 
动 计算 机 为 实验 性 的 移动 计算 机 ， 它 比 大 多 数 的 研究 原型 更 具有 实用 性 ， 但 是 比 大 多 数 的 商用 系统 更 开 
放 。 它 于 1997 年 在 Compaq 的 西部 研究 实验 室 研发 ， 西 部 研究 实验 室 专门 研究 移动 计算 机 的 设计 和 探索 移 
动 计算 的 可 行 性 、 需 求 和 限制 [Hamhurgen，et al., 2001]. iPAQ 商业 PDA 也 是 从 Itsy 研究 原型 发 展 而 来 
的 ， 尽 管 在 这 两 类 机 器 间 有 显著 的 差别 。 

Itsy V2 并 不 是 单片机 ， 它 是 使 用 Intel StrongARM SA- 1100 微 处 理 器 构建 的 计算 机 。 Itsy V2 包含 了 
32MB RAM 和 一 个 另外 的 32MB 闪存 一 一 可 通过 CPU 直接 访问 (所 以 主 存储 器 有 64MB)。 输 出 设备 是 
320 x 200 像素 、15 级 灰 度 的 液晶 显示 屏 和 扬声器 。 输 入 设备 是 触摸 传感器 〈 用 户 可 以 使 用 塑料 笔 来 在 屏 
幕 上 书写 和 点 击 ) 、 一 些 功能 按钮 和 麦克 风 。 可 以 通过 红外 线 链 路 、USB 连接 和 串 行 通信 端口 将 Itsy ME 
机 相连 。Ttsy 也 包含 了 两 轴 加 速 计 用 来 测量 整个 机 器 的 运动 (为 了 使 用 手势 作为 输入 )。 其 他 的 设备 可 通 
过 “ 子 卡 适配器 ”(daughterboard adaptor) (采用 了 工业 标准 的 PCMCIA F) 连接 到 Itsy。 这 个 端口 可 
用 来 增加 内 存 、 无 线 卡 和 其 他 设备 。 

StrongARM SA — 1100 微 处 理 器 是 一 个 32 位 的 、 耗 电量 低 的 CPU， 它 是 在 性 能 和 电源 消耗 间 做 了 一 个 
折 中 。 另 外 ，CPU 也 可 以 按 不 同 的 时 钟 频率 工作 ， 从 59MHz 到 206MHz。 根 据 移动 计算 机 用 来 于 什么 ， 
电源 耗 电 量 可 能 有 一 个 数量 级 的 区 别 ， 这 与 CPU 的 电源 耗 电 量 直接 相关 。 例 如 ， 在 系统 空闲 时 ，CPU 在 
59MHz 下 工作 ， 耗 费 69.6mW 的 电量 ; 但 是 如 果 用 户 正 在 机 器 上 录音 ， 则 它 耗费 757mW 电量 。 为 了 知道 
CPU 在 不 同 频率 下 的 耗 电量 ,研究 人 员 发 现 : 如 果 Itsy 在 59MHz 下 播放 音频 文件 ， 系 统 耗 电量 为 
278mW; 如 果 CPU 在 206MHz 下 工作 ， 则 它 耗 费 310mW。 

在 1997 年 至 1998 Æ, Itsy 项 目 已 经 将 移动 计算 机 硬件 技术 发 展 到 了 极限 。 其 思路 是 建造 一 个 机 器 ， 
硬件 研究 人 员 对 电源 管理 和 系统 的 简洁 化 进行 实验 。 软 件 开 发 人 员 使 用 Itsy 来 探索 其 他 的 重要 领域 ， 如 移 
动 计算 机 的 操作 系统 (Itsy 使 用 了 Linux 版 本 )， 移 动 计算 机 的 人 机 交互 机 制 (Itsy BABA, (SE 
克 风 输入 )， 支 持 流 媒体 应 用 (Itsy 被 设计 用 来 播放 MPEG 音频 /视频 文件 )。iPAQ PDA 是 对 Itsy. 研 究 的 商 
业 结 果 。 
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4.8 多 处 理 机 和 并 行 计 算 机 


在 20 世纪 60 年 代 ， 计 算 机 科学 家 开始 关心 计算 机 计算 速度 的 极限 问题 ， 因 为 计算 速度 基于 电信 和 号 在 
计算 机 内 的 传播 速度 。 他 们 意识 到 : 随 着 时 钟 信号 的 增加 ，CPU 的 物理 尺寸 成 了 将 信号 从 CPU 的 一 部 分 
传送 到 另 一 部 分 的 时 间 的 障碍 。 事 实 上 ， 微 处 理 器 的 大 规模 集成 电路 实现 加 剧 了 这 些 限制 。 

科学 家 开始 考虑 由 信号 延迟 所 引起 的 瓶颈 的 替代 方法 ， 这 导致 了 多 处 理 机 思想 的 出 现 : 通过 将 计算 机 
设计 成 为 N 个 不 同 的 物理 部 件 ， 每 个 部 件 都 能 够 同时 运行 ， 这 样 计算 机 就 会 运行 得 更 快 (这 些 计 算 机 引 
人 了 并 行 的 方法 ， 违 反 了 冯 ' 诺 依 曼 计算 机 体系 结构 )。 如 果 问 题 能 分 解 成 相同 尺寸 的 N 个 不 同 的 子 问题 ， 
并 且 每 个 子 问题 都 可 被 计算 机 的 N 个 不 同 物理 部 件 解决 ， 那 么 ， 在 冯 : 诺 依 曼 计算 机 体系 结构 上 需要 花费 
K 个 时 间 单 元 来 解决 的 问题 ， 在 具有 N 个 不 同 的 物理 部 件 的 计算 机 上 仅 需 KAN 个 时 间 单 元 来 解决 。 定 义 
这 样 一 些 “ 子 问题 ”是 并 行 计算 的 第 一 个 挑战 ; 确保 实现 软件 可 以 同时 执行 这 些 “ 子 问题 ”是 第 二 个 挑 
战 。 

4.8.1 并 行 指令 执行 

时 期 的 六 行 计算 方法 是 在 AL 以内 构建 多 个 功能 单元 假如 ALU 有 几 个 专门 的 功能 单元 可 以 同时 执 
行 ，ALU 的 几 个 功能 单元 同时 执行 的 结果 会 和 指令 在 单个 的 功能 单元 上 顺序 执行 的 结果 相同 。 例如 ， 

个 程序 执行 下 面 的 表达 式 的 计算 : 

at (b*c) + (d*e) +f 


如 在 只 有 单个 功能 单元 的 ALU 上 执行 计算 将 花费 功能 单元 的 5 个 执行 周期 : 

1) Tmp =b* ec 

2) Tmp =d* e 

3) Tmp; = a+ Tmp; 

4) Tmp, = Tmp: + f 

5) Result = Tmp; + Tmp, 

现在 假定 ALU 有 两 个 加 法 单元 和 两 个 乘法 单元 。 计算 机 能 并 行 地 执行 几 件 事 情 ， 则 计算 能 在 3 THK 
行 周期 内 完成 。 

1) Tmp =b*c Tmp =d* e 

2) Tmp; =a + Tmp, Tmp, = Tmp; +f 

3) Result = Tmp; + Tmp, 

两 个 乘积 计算 可 以 并 行 完成 ， 两 个 加 法 可 以 在 第 二 个 执行 周期 并 行 计 算 ， 它 用 到 了 第 一 个 执行 周期 计 
算 所 得 的 结果 来 完成 计算 。 包含 多 个 功能 单元 (有 的 能 执行 浮 点 操作 ) 的 ALU 将 比 只 有 单个 功能 单元 
( 仅 能 执行 算术 运算 和 人 逻辑 运算 ) 的 ALU 更 复杂 ， 但 它 能 以 极 高 的 速率 来 工作 。 

对 CPU 采用 流水 线 技术 和 在 CPU 上 使 用 多 个 功能 
单元 很 相似 。 在 流水 线 方法 中 ， 功 能 单元 被 分 成 Ne AERC wa 
小 单元 ， 称 之 为 流水 段 ， 所 以 对 要 执行 的 操作 ， 必 须要 


被 每 一 个 小 的 单元 进行 处 理 〈 见 图 4.21)。 因 为 这 些 段 a) 单一 单元 

是 硬件 的 独立 单元 ， 所 以 每 一 段 都 能 同时 执行 。 这 个 策 pecan | 

略 就 是 每 当 流水 线 功 能 的 第 一 段 变 得 空闲 ， 它 就 执行 一 ara H H H H Her 
个 新 的 操作 。 当 第 一 段 执行 完成 ， 它 将 操作 数 和 操作 伟 b) 流水 化 单元 


递 至 第 二 段 ， 然 后 接收 下 条 指令 。 每 一段 都 接收 来 自 
上 一 阶段 的 执行 指令 ， 然 后 将 它 完成 的 结果 传送 给 下 一 段 。 图 421 流水 化 的 功能 单元 

在 N 段 流水 线 中 ， 一 个 操作 在 被 每 一 段 处 理 过 后 就 算 完成 了 。 由 于 每 一 步 能 并 行 执行 ， 意 味 着 功能 
单元 的 N 段 可 以 同时 对 N 个 不 同 操作 的 部 分 进行 操作 。 例 如 ， 图 4.21 的 流水 线 技术 执行 连续 的 功能 单元 
需要 花费 100 个 时 间 单位 ， 在 图 中 的 $ 自流 水 线 中 ， 每 一 段 仅 需 20 个 时 间 单位 。 这 意味 着 每 陋 20 个 时 间 
单位 ， 新 的 指令 就 可 以 进 和 流水线。 任何 特定 的 计算 将 花费 100 个 时 间 单位 ， 两 个 计算 需要 120 个 时 间 音 
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位 ， 三 个 计算 需要 140 个 时 间 单 位 ， 依 此 类 推 。 , 

重合 取 指 令 和 执行 指令 可 以 认为 是 一 个 两 段 的 流水 线 一 一 取 指令 是 第 一 段 ， 执 行 指令 是 第 二 段 。 流 水 
化 的 计算 机 在 处 理 向 量 数据 类 型 时 ， 被 证 明 是 十 分 有 效 的 。 这 种 技术 首先 在 超级 计算 机 中 广泛 使 用 ， 如 20 
世纪 80 年 代 的 Cray Research 计算 机 ， 现 在 这 种 技术 广泛 地 应 用 到 现代 的 高 性 能 微 处 理 器 中 。 


4.8.2 阵列 处 理 机 


阵列 处 理 机 有 大 量 的 相同 功能 单元 来 进行 并 行 操 
作 。 单 指令 流 多 数据 流 (single-instruction，multiple- 
data, SIMD) 并 行 机 设计 用 于 执行 一 个 程序 ， 如 同 它 
是 一 个 单线 程 进 程 。SIMD 机 器 的 CPU 由 单个 的 控制 
单元 和 N 个 不 同 的 ALU 组 成 ( 见 图 4-22)。 控 制 单 
元 和 传统 的 汉 : 诺 依 曼 计算 机 以 相同 的 方式 进行 工作 ; 
从 主 存储 器 中 取 指 令 ， 对 指令 译 码 ， 然 后 发 送 执行 信 
号 给 ALU。 然 而 , 不 是 发 送信 号 给 一 个 ALU， 它 会 | ALU 单元 
发 送信 号 给 N PARA ALU。 这 类 机 器 对 和 矩阵 和 向 a) 传统 结构 b) SIMD 结 构 
量 计算 特别 有 效 。 然 而 ， 在 对 标量 数据 进行 处 理 时 ， 、 
同时 仅 有 一 个 计算 在 执行 ，SIMD 机 器 的 其 他 N 1 图 422 SIMD 计 算 机 
个 ALU 是 不 活跃 的 ， 仅 有 一 个 ALU 在 执行 顺序 计算 。 

Iliac JV 和 Connection Machine CM-2 是 这 类 机 器 的 例子 。 对 于 这 些 机 器 ， 操作 系统 还 没有 硬件 技术 发 
展 那么 迅速 。 随 后 ，SIMD 机 器 趋向 于 与 汉 * 诺 依 曼 型 前 端 机 结合 ， 在 前 端 机 运行 传统 的 顺序 操作 系统 ， 而 
SIMD 机 器 本 身 被 前 端 机 作为 一 种 设备 使 用 。 例 如 ， 这 种 典型 的 SIMD 机 器 结构 可 能 结合 2000 个 处 理 单 
元 , 但 它 要 受 一 个 工作 站 的 控制 。 


4.8.3 共享 内 存 多 处 理 机 


共享 内 存 多 处 理 机 (又 称 SMP 或 CPU 群 ) 中 使 用 了 一 组 热 销 的 处 理 器 芯片 ， 如 Intel 公司 的 Pentium, 
Sun 公司 的 SPARC 或 Compaq Alpha。 处 理 器 间 相 互 连 接 ， 并 且 带 有 一 个 主 存 ， 使 用 特殊 的 硬件 使 处 理 器 
与 主 存 互 连 。 在 20 世纪 80 年 代 第 一 次 共享 主 存 多 处 理 机 的 热潮 中 ， 使 用 传统 总 线 作为 互连网 络 。 在 这 种 
连接 技术 中 ， 要 求 处 理 器 结合 各 种 缓冲 技术 ， 减 少 与 公共 总 线 的 交互 。 尽 管 这样 ， 没 有 一 个 制造 商 能 够 使 
用 这 种 技术 构建 一 个 可 行 的 超过 20 个 处 理 器 的 机 器 。 如 果 数 目 超过 20 个 ,那么 对 总 线 的 竞争 就 会 成 为 一 
个 严重 的 性 能 瓶颈 ， 因 此 排除 了 增加 大 量 处 理 器 数目 的 可 能 性 。 这 种 机 器 被 称 为 是 不 可 扩展 的 。 

然而 共享 主 存 多 处 理 机 很 快 被 程序 员 所 熟悉 ， 因 为 单 处 理 器 下 用 于 开发 软件 的 工具 ， 可 以 很 容易 地 用 
于 共享 主 存 的 体系 结构 中 。 开 发 这 种 要 求 的 应 用 程序 ， 需 要 将 其 分 成 两 个 或 多 个 顺序 执行 的 部 分 〈 每 一 部 
分 由 一 个 处 理 器 完成 )， 它 们 之 间 可 以 通过 使 用 公共 的 存储 器 部 分 而 相互 通信 。 因 此 可 以 说 这 种 机 器 在 软 
件 上 是 可 扩展 的 ， 而 硬件 上 不 能 ， 因 为 当 问题 的 规模 扩大 时 ， 可 以 很 容易 地 编写 软件 ， 而 扩充 硬件 处 理 器 
则 很 困难 。 

尽管 共享 主 存 系统 在 同一 时 间 可 以 执行 多 个 程序 序列 ， 这 一 点 与 冯 : 诺 依 曼 计 算 机 有 根本 的 不 同 ， 但 
它们 还 是 利用 冯 * 诺 依 曼 计算 机 使 用 的 总 线 技术 连接 处 理 器 、 主 存 和 设备 。 这 意味 着 总 线 或 其 他 复杂 的 互 
连 机 制 将 对 “ 汉 ' 诺 依 曼 瓶颈 ”注意 力 引 向 对 多 处 理 器 性 能 的 关注 。 


4.8.4 分 布 式 存储 多 处 理 机 


分 布 式 存储 多 处 理 机 (distributed memory multiprocessors) 由 一 组 拥有 独立 主 存 的 处 理 器 集合 构成 ， 使 
用 高 速 网 络 互 连 。 在 有 些 情况 下 ， 互 连 网 络 是 专门 设计 和 实现 的 ; 而 有 些 就 是 利用 相对 标准 的 局 域 网 或 者 
高 速 的 光纤 网 络 进行 互 连 。 由 于 没有 公共 的 主 存 ， 不 同 计算 机 中 的 进程 之 间 使 用 消息 进行 通信 。 

分 布 式 主 存 机 器 通常 不 像 共享 主 存 机 器 那样 “透明 地 ”支持 顺序 编程 语言 ， 其 上 的 软件 基于 一 种 模 
型 ， 这 种 模型 中 进程 间 的 相互 作用 是 通过 交换 消息 实现 的 ， 而 不 是 共享 某 一 个 主 存 区 域 。 不 过 有 了 时 可 以 构 
造 一 个 编译 器 ， 由 它 把 对 共享 存储 器 的 访问 转换 成 一 组 适当 的 消息 发 送 和 接收 语句 ， 这 种 方法 只 能 在 有 限 
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的 范围 内 使 用 。 在 这 些 机 器 中 ， 高 性 能 的 获得 只 能 在 编写 程序 中 通过 使 用 显 式 的 消息 传送 来 实现 ， 因 而 软 
件 是 不 可 扩展 的 。 


4.8.5 工作 站 网 络 


工作 站 网 络 (network of workstations, NOW) 是 通过 网 络 连 接 的 一 组 传统 个 人 计算 机 和 工作 站 。 它 与 
多 处 理 机 有 很 大 的 不 同 ， 它 的 每 一 个 计算 机 是 一 个 自治 单元 ， 有 自己 的 操作 系统 。 网 络 上 的 大 量 工 作 站 可 
以 协调 工作 ， 好 像 它们 是 一 个 多 处 理 机 一 样 。 然 而 ， 这 实际 上 是 一 个 软件 解决 方法 ， 而 不 是 一 个 硬件 实 
例 ， 因 为 所 有 的 计算 机 都 是 传统 的 冯 ' 诺 依 曼 计 算 机 。 


4.9 小 结 


存储 程序 计算 机 提供 了 一 种 手段 ， 通 过 它 ， 国 定 功能 的 硬件 能 够 被 不 同 的 软件 所 控制 。 这 种 灵活 性 在 
电子 和 机 械 设备 中 是 独特 的 ， 这 也 正 是 将 具有 该 特性 的 电子 设备 定义 为 计算 机 的 理由 所 在 。50 多 年 来 ， 
汉 ' 诺 依 曼 体系 结构 主宰 了 计算 机 的 设计 ,一 个 汉 . 诺 依 曼 计算 机 由 几 个 部 分 组 成 ,包括 - -个 包含 ALU 和 和 
控制 单元 的 CPU; 一 个 能 够 存储 程序 和 数据 的 主 存储 器 ; 以 及 当 计 算 机 关闭 后 ， 能 存储 程序 和 数据 的 外 存 
设备 ; 将 数据 输入 计算 机 的 设备 ; 将 处 理 器 计算 的 结果 输出 的 设备 。 

CPU 设计 成 按照 一 个 基本 的 取 指 - 执行 周期 进行 操作 ， 指 令 从 主 存 中 取出 ， 通 过 控制 单元 译 码 ， 然 后 
由 CPU 的 一 些 单元 或 其 他 设备 执行 ， 或 者 由 它们 共同 执行 。ALU 是 用 于 算术 和 逻辑 运算 的 工作 部 件 。 控 
制 器 负责 决定 指令 执行 的 顺序 。 主 存 是 由 存储 单元 的 集合 组 织 而 成 的 ， 它 们 有 连续 的 地 址 ， 主 存单 元 用 于 
存储 处 理 器 使 用 的 信息 。 

设备 用 于 输入 信息 到 内 存 ， 并 且 记录 或 保存 机 器 的 计算 结果 。 很 多 设备 都 可 以 加 入 到 机 器 中 ， 从 过 程 
控制 应 用 程序 需要 的 传感器 ， 到 能 够 在 短 短 几 秒 内 将 大 量 数据 信息 在 机 器 间 传 输 的 网 络 设备 。 通 信 设 备用 
于 传送 和 接收 信息 ， 而 存储 设备 用 于 保存 信息 。 

每 种 设备 都 有 一 个 控制 器 ， 将 物理 设备 抽象 为 一 个 供 不 同 设备 制造 商 共享 的 高 层 接口 。 这 种 抽象 允许 
制造 商 生 产 有 不 同性 能 和 尺寸 特征 的 设备 族 ， 而 提供 给 软件 使 用 的 是 一 个 公共 的 硬件 接口 ， 甚 至 允许 相互 
竞争 的 制造 商 提供 “兼容 插件 ”类 型 的 设备 。 

设备 驱动 程序 形成 另 一 个 层次 的 抽象 ， 它 定义 了 一 个 标准 化 的 软件 接口 ， 程 序 员 可 以 与 设备 相互 作用 
而 无 需 了 解 设备 的 操作 细节 。 接 口 提供 软件 I/O 操作 ， 而 不 涉及 设备 硬件 行为 。 

为 了 解决 检测 I/O 操 作 什么 时 候 已 经 结束 的 问题 ， 导 致 了 中 断 的 出 现 。 中 断 使 被 / 〇 操作 阻塞 的 进程 
只 需要 “睡眠 ”恰当 的 时 间 。 中 断 也 引起 了 竞争 条 件 的 产生 。 如 果 一 个 中 断 发 生 后 ， 又 出 现 了 一 个 中 断 并 
对 其 进行 处 理 ， 操 作 系统 可 能 会 丢失 进行 正确 处 理 的 信息 ， 从 而 错误 地 处 理 1/O 操作 。( 在 第 8 章 中 ,你 
会 发 现 更 为 严重 的 问题 。) 

几乎 所 有 的 现代 计算 机 都 是 冯 ' 诺 依 曼 计算 机 ， 桌 面 计算 机 、 笔 记 本 和 服务 器 都 使 用 这 种 体系 结构 。 
在 最 近 的 几 年 ， 移 动 计算 促进 了 小 型 计算 机 和 片上 系统 技术 的 发 展 。 小 型 计算 机 为 了 便携 性 也 常常 幅 牧 计 
算 能 力 。 

并 行 计算 机 和 多 处 理 机 采用 的 不 是 冯 . 诺 依 曼 体系 结构 ， 它 显 式 地 支持 多 处 理 器 同时 操作 。 在 这 个 领 
域内 有 许多 不 同 的 尝试 ， 如 多 功能 部 件 CPU、 流 水 化 的 CPU. SIMD 机 器 、 共 亭 主 存 多 处 理 机 、 分 布 式 主 
存 多 处 理 机 和 工作 站 网 络 。 

下 一 章 将 讨论 最 简单 的 软件 扩展 一 一 设备 管理 。 


4.10 习题 
1 下面 的 机 器 指令 会 使 计算 机 从 主 存 位 置 FTXED__DEST 执行 下 一 条 指令 。 


br FIXED _ DEST 

说 明 一 下 ALU 和 /或 者 控制 单元 执行 该 指令 的 详细 步骤 是 什么 ? - 

下 面 的 条 件 分 支 指令 会 使 计算 机 在 满足 如 下 条 件 时 ， 分 支 转移 到 标号 为 “loop” 的 指令 处 执行 。 条 
件 是 : 如 果 RL 中 的 内 容 小 于 或 等 于 R 中 的 内 容 。 
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bleq R1, R2, loop 
说 明 一 下 ALU WRAHA ATAS RE A? 


. 图 4-5 中 描述 了 顺序 控制 单元 的 取 指 - 执行 算法 ， 在 讨论 中 非 正式 地 描述 了 一 个 机 器 是 如 何 通过 取 


指 操作 与 执行 操作 的 交 选 进行 使 运行 速度 更 快 的 。 列 出 完成 这 种 交 和 迭 运 行 的 必须 步骤 ， 说 明 其 中 
必须 要 引入 的 新 寄存 器 ， 指 出 控制 单元 的 哪 部 分 操作 是 同时 进行 的 ， 并 重新 编写 取 指 - 执行 算法 。 


. 假定 一 个 工作 站 的 时 钟 频率 是 23MHz， 它 意味 着 机 器 能 够 每 秒 完 成 25 000 000 个 基本 操作 。 例 如 ， 


一 个 寄存 器 测试 指令 恰好 1 个 时 钟 周期 能 完成 ， 但 一 个 算术 指令 需要 10 个 时 钟 周期 完成 ， 而 一 个 
O 指令 可 能 需要 几 百 个 时 钟 周期 才能 完成 。 

a. 完成 一 个 基本 操作 的 时 间 是 多 少 ? 

b. 假定 指令 平均 需要 2.5 个 时 钟 周期 ， 那 么 在 100 毫秒 内 可 以 执行 多 少 条 指令 ? 


. 高 级 编程 语言 可 以 认为 是 机 器 语言 指令 集 的 抽象 机 器 。 根 据 给 出 的 C 语言 赋值 语句 ; 


a=btoc; 

回答 下 面 的 问题 : 

a. 如 果 语 句 之 前 ， 有 如 下 的 类 型 声明 ， 

int a, b, c; ， 

使 用 伪 汇编 语言 作为 编译 器 产生 的 机 器 语言 ， 描 述 一 下 抽象 机 器 的 实现 。 
b. 如 果 语 句 之 前 ， 有 如 下 的 类 型 声明 : 

float a, b, c; . 

描述 一 下 抽象 机 器 的 实现 。 看 一 下 这 段 代码 的 机 器 语言 与 a 中 的 有 何不 同 。 
c. 如 果 语 句 之 前 ， 有 如 下 的 类 型 声明 ， 

int a; 

float b, c; 


描述 一 下 抽象 机 器 的 实现 。 看 一 下 这 段 代码 的 汇编 语言 与 a 和 b 中 的 有 何不 同 。 


.计算 下 面 的 具有 二 进 制 操作 数 的 表达 式 。 将 它们 转化 为 十 进 制 并 执行 相同 的 操作 ， 对 它们 进行 检 


验 。 

a. 10101111 + 00101010 
b. 11101011 ~ 10101010 
c. 10111011 x 00001011 
d. 01001000 00001100 


. 将 练习 5 中 的 每 个 数字 转换 成 十 六 进 制 表 示 ， 并 用 十 六 进 制 表示 计算 表达 式 的 值 。 
. 微 处 理 器 芯片 的 硬件 指令 集中 常常 不 包括 浮 点 操作 的 指令 。 浮 点 指令 可 以 使 用 软件 函数 来 实现 ， 


也 可 用 添加 辅助 的 浮 点 芯片 与 微 处 理 器 芯 : 片 协同 工作 来 实现 。 

a. 使 用 伪 代 码 ， 描 述 两 个 浮 点 数 求 和 的 算法 。 

b. 描述 两 个 浮 点 数 相 乘 的 算法 。 

c. 在 处 理 器 芯片 上 实现 的 浮 点 乘 和 使 用 软件 函数 来 实现 的 浮 点 乘 相 比 ， 性 能 有 什么 区 别 9 (通过 说 
明 哪 种 方法 更 快 一 些 来 回答 这 个 问题 ， 通 过 说 明 如 3、10、100 和 1000 的 因数 来 估计 速度 上 的 
差异 )。 


. 假定 采用 单 地 址 机 器 语言 〈 即 ， 每 条 指令 中 最 多 可 访问 一 个 主 存 位 置 ) 执行-- 条 指令 平均 需要 2.5 


个 时 钟 周期 。 估 计 一 下 执行 下 面 的 C 语 言 循环 语句 (代码 编译 时 不 优化 ) 需要 多 少 个 时 钟 周期 ? 
解释 你 的 答案 。 


for (i=0; i<100; it +) a [i] =0; 


- 维持 一 个 能 够 被 任意 用 户 程序 读 取 的 系统 时 钟 ， 这 要 求 操作 系统 读 取 维持 物理 时 间 的 物理 设备 ， 
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然后 将 时 间 写 人 一 个 全 局 的 可 读 变量 中 。 假 定 读 取 物理 时 钟 并 更 新 变量 所 用 的 时 间 为 100 微 秒 ， 
CPU 维护 一 个 精确 率 为 毫秒 级 的 时 钟 〈( 即 时钟 的 时 间 误 差 是 毫秒 级 ) 所 用 时 间 占 整个 CPU 时 间 的 
比例 是 多 少 ? 100 微 秒 级 的 如 何 ? 10 微 秒 级 的 如 何 ? 给 出 合理 的 解释 。 

10. C++ 类 型 层次 可 用 于 定义 设备 驱动 程序 一 一 在 一 个 基 类 中 编写 所 有 设备 的 标准 操作 代码 ， 然 后 通 
过 派生 类 细 化 各 种 设备 的 行为 。 描 述 一 个 类 型 层次 ， 其 中 包括 成 员 函 数 和 数据 ， 针 对 键盘 、 显 示 
器 、 鼠 标 、 串 行 打印 机 、 软 磁盘 ， 以 及 硬盘 。 不 用 包括 函数 的 细节 。 

11. 使 用 类 C 的 伪 代 码 ， 描 述 一 个 设备 的 驱动 程序 、 中 断 处 理 程 序 以 及 设备 状态 表 ， 实 现下 列 函 数 ， 
a. open (device) 

b. close (device) 

c. get_ block (device, buffer) 

d. put _ block (device, buffer) 

这 个 问题 的 说 明 忽略 了 实际 系统 中 的 很 多 细节 ， 你 将 需要 对 硬件 和 操作 系统 环境 作出 一 些 假定 ， 
假定 中 可 以 使 用 任 一 个 操作 系统 作为 背景 。 然 而 ， 你 要 确保 考虑 在 解决 方案 中 作出 的 所 有 假定 。 

12. 传统 的 高 级 程序 设计 语言 ， 它 们 的 操作 依赖 于 顺序 语义 。 特 别 地 ， 当 程序 员 写 了 如 下 的 代码 段 ， 


read (io port, &buffer, length); 
x=f (buffer [i]); 


他 们 期 望 赋值 语句 在 读 语句 得 到 输入 数据 ， 并 写 人 地 址 为 buffer 的 内 存 位 置 之 前 不 会 执行 。 写 一 
段 伪 人 代码， 描述 这 些 语义 是 如 何在 “read” 库 函数 及 一 个 使 用 该 例 程 的 相应 程序 中 实现 的 。 

13. 描述 一 个 新 的 读 函 数 “xRead” 及 其 配套 函数 。 能 够 让 用 户 编写 这 样 的 应 用 程序 ， 在 应 用 程序 中 调 
用 “xRead” 后 ， 能 够 继续 后 续 处 理 ， 但 能 够 在 读 取 到 可 使 用 的 数据 之 前 阻塞 自己 。 

14. 在 当代 计算 机 中 ， 串 行 异步 通信 端口 广泛 用 于 终端 (键盘 和 显示 器 ) 或 打印 机 与 计算 机 的 连接 。 
在 典型 的 信和 号 协议 中 ,使 用 1 或 2 个 开始 位 和 1 个 信和 号 结束 位 打包 每 个 要 传送 的 字 节 ; 传送 者 发 
送 开始 位 给 接收 者 ， 指 明 一 个 字 节 将 要 传送 ， 然 后 字 节 中 的 8 位 被 传送 ， 随 后 传送 1 个 信号 结束 
位 。 使 用 这 种 协议 ， 通 过 一 条 9600 波 特 率 的 串 行 线路 ， 每 秒 能 够 传送 多 少 个 字 节 ? 传送 那些 开 
销 位 所 占 的 时 间 百 分 比 是 多 少 ? 

15. 考虑 4.6 节 给 出 的 现代 桌面 计算 机 的 性 能 说 明 ， 在 这 样 的 计算 机 中 ， 哪 一 个 部 件 可 能 是 性 能 瓶 
颈 ? 为 什么 ? 

16. Itsy 计算 机 采用 了 两 轴 加 速 计 来 测量 整个 机 器 的 运动 。 这 个 设备 报告 了 机 器 在 两 维 方向 上 的 改 
变 。 设 计 者 认为 这 在 跟踪 用 户 的 物理 姿 式 时 非常 有 用 。 采 用 这 种 设备 ， 操 作 系统 的 哪 一 部 分 会 受 
到 影响 。 也 就 是 说 ， 操 作 系统 的 哪 一 部 分 需要 改变 来 管理 这 个 设备 ? 

17. 假定 一 台 计 算 机 有 一 个 流水 化 的 功能 单元 (包含 了 4 段 )， 每 段 的 执行 时 间 是 50 微 秒 ， 则 机 器 1 
秒 内 最 多 可 执行 多 少 条 指令 ? 


第 5 章 设备 管理 


本 章 对 第 4 章 关于 设备 的 讨论 进行 了 进一步 扩展 ， 着 重 于 管理 设备 的 软件 部 分 一 一 设备 驱动 程序 和 中 
断 处 理 程序 。 本 章 从 设备 管理 的 总 的 概貌 开始 ， 讨 论 了 设备 管理 器 的 组 织 结构 、 读 / 写 语义 、 轮 询 VOM 
中 断 驱 动 的 MD。 然后 ， 我 们 考虑 影响 设备 驱动 程序 设计 的 实际 因素 ， 包 括 缓 冲 。 本 章 也 讨论 了 不 同 种 类 
设备 的 特征 。 


5.1 1/O 系统 


在 办 公 室 里 ， 雇 员 通 过 发 送 订购 请 求 给 采购 
员 来 订购 物品 。 采 购 员 确定 供应 物品 的 最 好 的 开 
发 商 ， 并 进行 订购 ， 然 后 发 送 订购 单 给 会 计 部 门 。 
想像 一 下 如 果 你 是 供应 科 的 经 理 ， 你 有 一 个 采购 
员 ， 他 处 理 订 购 非 常 快 且 准确 。 你 会 雇佣 一 个 人 
(输入 设备 ) 将 订单 送 给 他 ， 并 雇佣 另 一 个 人 〈 输 
出 设备 ) 来 发 送 订购 单 ( 见 图 5-1)， 而 不 会 让 采 





处 理 器 





购 员 (处理 器 ) 从 雇员 那儿 收取 订单 请 求 并 发 送 \ 众 ] 

订购 单 给 会 计 部 门 。 这 可 以 给 采购 员 更 多 处 理 订 i 

单 的 时 间 ， 同 时 ， 其 他 的 人 可 以 处 理 他 自己 的 I/O 

活动 。 这 和 设备 管理 器 的 工作 类 似 : 它 应 能 提供 图 5-1 输入 /输出 设备 

实现 1/O 操作 的 子 系统 ， 使 得 设备 能 和 处 理 器 并 注 : 其 策略 就 是 将 输入 /输出 工作 交 给 计算 机 的 其 他 部 
行 操作 。 分 来 做 ， 使 得 处 理 器 能 一 直 进 行 数据 的 处 理 。 


在 计算 的 早期 , 计算 机 设计 者 并 没有 将 CPU 的 执行 与 I/O 操作 分 开 ， 一 位 早期 的 设计 师 说 过 [alt， 
1948]: 

看 起 来 大 多 数 的 计算 机 设计 师 一 致 同意 : 进行 数字 输入 的 时 间 和 进行 算术 操作 的 时 间 应 该 是 同一 数量 
级 的 ， 甚 至 会 比 算术 运算 数量 级 更 高 一 些 。 

在 一 段 时 间 后 ， 计 算 机 设计 者 意识 到 IMO 设备 依赖 于 机 械 运 动 ， 而 CPU 计算 是 纯 电 子 开关 ， 它 的 计 
算 速 度 要 比 I/O 操作 要 高 几 个 数量 级 。 于 是 硬件 和 软件 设计 师 开始 寻找 这 样 一 种 技术 : CPU 计算 可 以 不 
必 等 待 1/0 操作 而 持续 执行 。 一 种 十 分 有 效 的 技术 就 是 创建 一 种 环境 ，CPU 能 持续 执行 有 效 的 计算 ， 不 
用 在 1/O 处 理 过 程 中 在 设备 上 进行 忙 等 待 。 

SR, VO 系统 设计 要 满足 以 下 两 个 原则 ; 

m 提供 简单 的 、 抽 象 的 软件 接口 来 管理 计算 所 需 的 1/O 操作 。 

m 确保 在 I/O 设备 操作 和 CPU 之 间 有 尽 可 能 多 的 重生 。 


5.1.1 设备 管理 器 抽象 


我 们 先 来 概述 一 下 O 系统 的 部 件 : 设备 包含 控制 器 ， 可 为 软件 提供 接口 。 控 制 器 作为 硬件 接口 在 某 
种 意义 上 相对 复杂 一 些 ， 因 为 在 启动 控制 器 之 前 有 许多 参数 需要 设置 ， 并 要 对 操作 的 完成 与 否 进行 状态 检 
查 。 设 备 驱动 程序 由 一 组 函数 组 成 ， 它 抽象 了 一 个 特定 设备 控制 器 的 操作 ( 见 图 5-2)。 一 组 设备 驱动 程序 
为 所 有 的 设备 导出 了 相同 的 或 尽 可 能 相似 ) 抽象 。 例 如 ， 即 使 打印 机 驱动 程序 封装 了 如 何 控制 打印 机 的 
知识 ， 磁 盘 驱动 程序 专用 于 磁盘 管理 ， 但 是 它们 都 提供 相同 的 接口 用 于 调用 它们 的 服务 。 并 不 是 每 个 设备 
都 能 实现 标准 接口 上 的 每 个 功能 。 例 如 ， 并 没有 实现 打印 机 的 读 函 数 (虽然 有 调用 接口 ， 但 没有 功能 实 
现 )。 

设备 驱动 程序 的 设计 是 一 个 严格 的 软件 设计 过 程 ， 设 计 者 必须 了 解 使 用 设备 控制 器 接口 的 所 有 细节 。 
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设计 者 依据 设备 的 细节 ， 通 过 构建 标准 接口 上 的 实现 函数 来 实现 抽象 。 在 1.1 节 中 介绍 的 磁盘 驱动 器 抽象 
表示 了 驱动 程序 的 性 质 。 
经 过 多 年 的 发 展 ， 操 作 系统 设计 者 开发 了 一 组 vritet); D 


- API, 它们 看 起 来 像 用 来 读 写 文件 的 API (H, 2.2 





节 的 文件 API 的 讨论 )。 在 采用 POSIX 接口 的 系统 
中 ,设备 管理 系统 调用 接口 包含 了 打开 (open), 
关闭 (dose)、 读 (read)、 写 (write)、 移 动 指针 
(seek) 和 控制 设备 (control) 的 函数 ( 见 表 2.1 的 
文件 命令 )。open() 函数 为 调用 进程 分 配 设备 并 
准备 好 设备 管理 器 数据 结构 ， 使 得 它 能 管理 VOR 
YE. close () 天 数 释放 对 设备 的 占用 并 释放 数据 
结构 。seek () 函数 可 以 对 设备 进行 读 写 定 位 ， 使 
得 可 以 对 设备 中 的 特定 地 址 进行 读 写 。 例 如 ，seek 
() 调用 可 以 将 磁带 移 到 一 个 可 以 读 写 的 任何 位 置 。 
ei È: 不 同 的 设备 有 不 同 的 控制 器 ， 不 同 的 控制 器 有 不 
i 同 的 接口 。 每 个 设备 驱动 程序 都 对 应 于 一 个 唯一 

BREN, HARER. KREEME, BAUNEI RAEM 

设备 管理 器 的 基础 设施 (infrastructure) 也 是 的 函数 集 。 
操作 系统 (管理 了 大 量 的 设备 驱动 程序 ) 的 一 部 
分 。 这 个 基础 设施 使 得 操作 系统 可 以 提供 一 组 公共 的 设备 接口 系统 调用 。 它 能 够 将 对 公共 接口 的 调用 转换 
到 特定 的 设备 驱动 函数 (将 在 5.3 节 讨 论 )。 设 备 管理 基础 设施 和 大 量 的 设备 驱动 程序 构成 了 设备 管理 器 。 

如 在 图 5-3 中 所 解释 的 ， 设 备 管理 器 由 设备 相关 部 分 和 设备 无 关 部 分 组 成 。 驱 动 程序 是 设备 管理 器 的 
设备 相关 部 分 。 在 中 断 驱动 MO 情形 下 ， 设 备 驱动 程序 被 分 成 两 部 分 ， 一 部 分 用 来 初始 化 操作 ， 另 一 部 分 
是 中 断 处 理 程序 ， 用 来 处 理 操作 的 完成 。 基 础 设施 是 设备 管理 器 的 设备 无 关 部 分 。 





图 5-2 设备 驱动 程序 接口 





图 5-3 设备 管理 组 织 结构 
注 : 设备 管理 器 为 文件 管理 器 和 应 用 软件 提供 了 服务 ， 它 由 一 个 设备 无 关 部 分 和 大 量 的 与 设备 相关 的 设备 驱动 
程序 组 成 。 
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5.1.2 在 应 用 程序 内 | /O 与 处 理 器 的 交 迁 执行 

应 用 程序 员 有 一 个 预想 的 关于 1/O 操作 语义 的 模型 ， 他 们 希望 单个 的 线程 具有 串 行 执行 语义 ， 这 意味 
着 读 写 操作 就 好 像 是 顺序 操作 一 样 。 当 程序 员 在 程序 中 使 用 读 语句 时 ， 他 们 认为 读 指 令 将 在 下 一 条 指令 执 
行 之 前 完成 。 

假定 有 如 下 的 线程 代码 ， 


read (dev_I,"%d",x); 
yf (x); 


图 5-4 显示 了 read () 系统 调用 被 执行 


、 read (dev_i,"%d",x); startRead(dev_I,"%d",x)j; 
的 情况 。 设 备 驱 动 程序 中 的 read () 函数 y=f (x); while (stillReading()); 


启动 dev_ _ 工 设备 ， 但 是 操作 并 没完 成 。 如 y=f(x); 
果 此 时 进程 执行 赋值 语句 Y= 工 (x)， 则 = 
f (x) 使 用 的 是 x 的 上 昌 值 ， 而 不 是 从 设备 中 
读 取 的 新 值 。 为 了 避免 这 种 情况 的 发 生 ， 
操作 系统 将 进程 阻塞 直到 它 完成 了 read () 
调用 。 从 进程 的 角度 看 ， 虚 拟 机 要 在 等 候 
设备 完成 MO 操作 之 后 才能 执行 赋值 语句 。 

更 复杂 的 语义 可 以 让 程序 员 初 始 化 





read () 操作 ， 也 就 是 说 ， 启 动 这 个 设备 并 设备 dev- 主 丰 cpu 
继续 进程 后 面 的 处 理 而 不 用 等 待 MO 设备 图 5-4 设备 与 CPU REZE 

的 读 完成 (看 图 5-4 右边 的 代码 )。 为 了 支 È: 顺序 程序 设计 语言 的 语义 是 语句 按 序 执行 。 这 意味 着 read 
持 串 行 执行 语义 ,设备 驱动 程序 将 导出 一 . O 语句 必须 在 赋值 语句 开始 之 前 完成 。 这 确保 了 在 O 
个 函数 startRead () 来 启动 设备 ， 另 一 个 函数 被 计算 时 ， 它 有 刚 读 到 的 x 值 。 


函数 stillReading () 来 确定 设备 完成 的 时 间 。 这 是 顺序 执行 的 red O 函数 的 一 个 替代 方法 。 
图 5-5 显示 了 在 这 种 语义 下 CPU 和 设备 执行 的 情况 (使 用 Gantt 图 来 解释 )。Gantt ARI T ZAA 
行 ， 假 定 应 用 程序 使 用 startRead () 和 stillReading () 函数 ; 


应 用 = 


IO 控制 器 











h hk 4 ttt t tg ly 


图 5-5 CPU 和 控制 器 的 交 迭 执行 
TE: 通过 使 用 startRead () 和 stillReading () 函数 ， 当 进程 (线程) 被 1/O 操作 阻塞 时 ， 操 作 系统 可 以 将 
CPU 分 配给 其 他 进程 〈 线 程 )， 这 导致 了 执行 一 组 程序 总 执行 时 间 的 减少 。 


m 在 zi 时 刻 ， 处 理 器 使 用 startRead () 操作 来 启动 控制 器 ， 并 继续 使 用 CPU。 只 要 应 用 程序 不 需要 
读 操作 的 结果 ， 就 能 在 执行 1/O 操作 的 同时 让 处 理 器 继续 执行 程序 。 当 线程 需要 读 棵 作 的 结果 时 ， 
它 调用 stillReading ()， 这 将 使 得 线程 处 理 暂停 直到 I/O 操作 完成 。 如 果 线 程 可 以 让 出 CPU ( 作 
为 stillReading 实现 的 一 部 分 )， 则 CPU 可 以 被 其 他 线程 使 用 。 

ME t 时 刻 , 设备 还 是 忙 的 ， 并 且 应 用 需要 读 操作 的 结果 才能 继续 处 理 ， 所 以 应 用 让 出 CPU. 

Bf !3 时 刻 ， 线 程 被 重新 分 配 CPU， 并 一 直 对 设备 进行 轮 询 直到 to 
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图 在 t4 时刻， 线程 再 度 让 出 CPU。 

一 在 :5 时刻， 线程 重新 检测 设备 ， 发 觉 它 一 直 处 于 忙 状态 。 

ME t6 时刻， 线程 开始 对 读 人 的 数据 进行 处 理 。 

B 在 t; 时 刻 ， 线 程 再 次 启动 设备 同时 执行 其 他 的 指令 ， 直 到 在 ts 时 刻 需要 IMO 操作 的 结果 ， 等 等 。 

CPU 和 设备 的 交 迭 执行 减少 了 程序 和 O 串 行 执行 的 总 时 间 ， 从 ti 时 刻 到 co 时 刻 和 从 ty 时 刻 到 tg 
时 刻 ，CPU 和 控制 器 可 以 并 行 操作 ， 减 少 了 单个 线程 的 总 执行 时 间 。 从 ts 时 刻 到 t, 时 刻 和 zs 到 te 时 刻 ， 
处 理 器 处 于 忙 等 待 状 态 ， 从 完成 有 效 的 计算 的 角度 来 看 ， 因 为 没有 交 迭 执行 操作 ， 这 些 处 理 器 时 间 周 期 被 
浪费 了 。 


5.1.3. 多 个 线程 间 的 I/O- 处 理 器 交 迁 执行 


对 于 一 个 线程 来 说 ， 要 使 得 I/O 操作 和 CPU 能 交 迭 执行 要 有 两 个 先决 条 件 ; 
n 要 对 线程 执行 的 计算 进行 恰当 安排 ， 使 得 I/O 操作 发 生 时 ， 线 程 可 以 做 一 些 其 他 的 工作 。 
a 程序 设计 语言 和 操作 系统 必须 提供 工具 ， 使 得 线程 可 以 启动 IO 操作， 并 且 可 以 对 设备 进行 轮 询 来 
看 操作 系统 是 否 已 经 完成 设备 1/O。 
如 果 单 个 线程 不 能 利用 CPU 和 1/0 操作 的 交 迭 执行 优势 ， 则 操作 系统 可 以 对 一 个 线程 的 CPU 执行 与 
其 他 线程 的 1/O 操作 进行 交 和 迭 。 可 以 通过 以 下 方式 来 达到 目的 : 无 论 什么 时 候 一 个 线程 执行 ORE, € 
会 将 CPU 让 给 另 一 个 线程 来 执行 。 因 此 ， 整 体系 统 性 能 得 到 了 提升 ， 但 在 单个 的 线程 中 处 理 器 和 1/0 设 
备 还 是 串 行 执行 。 线 程 内 的 串 行 执行 意味 着 操作 系统 的 进程 管理 部 分 必须 涉及 ORE. KART VO 
用 将 导致 调用 线程 会 让 出 CPU 给 其 他 的 应 用 进程 。 当 1/O 〇 完成 时 ， 原 来 的 线程 被 重新 调度 。 
设备 管理 器 可 以 使 系统 的 设备 I/O 操作 与 处 理 器 操作 交 迭 执行 ， 这 导致 了 计算 机 设备 的 更 有 效 的 使 
用 ， 但 对 进程 计算 的 实时 性 要 求 降 低 了 。 图 5-6 中 的 Gan 图 解释 了 设备 IMO 操作 怎样 交 迭 执行 ， 它 表现 
了 在 中 断 驱 动 的 系统 中 ， 两 个 不 同 应 用 程序 执行 时 的 特征 。 
在 与 时刻 之 前 ， 应 用 1 在 CPU 上 执行 。 
里 在 41 时刻， 应 用 1 初始 化 设备 操作 。 在 设备 控制 器 开始 操作 应 用 1 时 ，CPU 被 多 路 复 用 给 应 用 2. 
Mt, 时 刻 ， 应 用 2 放弃 处 理 器 ， 但 它 会 立即 获得 处 理 器 ， 因 为 应 用 1 仍然 在 等 待 1/O 操作 完成 。 
m 在 :3 时 刻 ， 控 制 器 完成 应 用 1 请 求 的 操作 ， 为 了 最 小 化 应 用 1 的 响应 时 间 ， 应 用 1 必须 要 尽 可 能 快 
地 执行 。 
B 在 Gantt 图 中 ， 应 用 2 t, 时 刻 初始 化 I/O 操作 ， 它 释放 CPU 使 得 应 用 1 能 够 继续 执行 ， 应 用 2 
WS 1/0 操作 完成 。 





L=- 











图 5-6 处理 和 IO 的 交 和 迭 
注 ，Gantt 图 显示 了 如 何 对 两 个 不 同 的 线程 进行 管理 ， 使 得 一 个 线程 的 1/ 〇 活动 可 以 与 男 一 个 线程 的 CPU 活动 
并 行 执行 。 虚 线 表 示 应 用 1 的 活动 ， 实 线 表示 应 用 2 的 活动 。 


5.2 ”I/O 策略 
在 第 4 章 ， 我 们 介绍 了 I/O 策略 的 一 个 方面 ， 也 就 是 使 用 直接 1/0 还 是 DMA。 直 接 1/O 策 略 是 将 输入 
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数据 从 控制 器 传送 到 CPU 寄存 器 ， 然 后 再 从 CPU 寄存 器 传送 到 主 存储 器 中 。 相 似 地 ，CPU 从 主 存储 器 中 将 
输出 数据 拷贝 到 寄存 器 ， 然 后 从 寄存 器 送 到 控制 器 。 直 接 I/O 的 一 种 替代 方法 是 DMA 1/O， 其 中 数据 流 是 在 
主 存储 器 和 控制 器 之 间 直 接 传送 。 现 在 我 们 要 介绍 LO 策略 的 另 一 个 方面 : 采用 中 断 的 方式 还 是 轮 询 的 方式 
来 确定 设备 什么 时 候 完成 操作 。 

这 两 个 方面 可 以 定义 4 种 不 同 的 IMO 策略 : 

血 使 用 轮 询 的 直接 1/0 

m 使 用 轮 询 的 DMA 1/0 

B 中 断 驱 动 I/O 

m 中 断 驱 动 DMA I/O 

一 般 并 不 支持 使 用 轮 询 的 DMA 1/O， 因 为 设备 如 果 能 读 取 主 存储 器 ， 那 它 也 能 采用 中 断 。 其 他 三 个 


选项 可 在 不 同 的 设备 控制 器 上 使 用 。 
read (device,…):; 
==, 


5.2.1 使 用 轮 询 的 直接 |/O 


直接 I/O 是 实现 I/O 操作 的 一 种 方法 ， 由 
CPU 负责 确定 1/0 操作 什么 时 候 完成 ， 并 在 © 
机 器 主 存 与 设备 控制 器 数据 寄存 器 间 进 行 数据 
传送 。 使 用 轮 询 的 直接 1/O 完成 输入 操作 需要 
以 下 几 个 步骤 (参见 图 5-7) 

1) 应 用 进程 请 求 读 操作 。 

2) 设备 驱动 程序 查询 状态 寄存 器 ， 确 定 
设备 是 否 空闲 ; 如 果 设 备 忙 ， 则 驱动 程序 循环 
等 待 ， 直 到 它 变 为 空闲 为 止 。 

3) 驱动 程序 把 输入 命令 存 人 控制 器 命令 
寄存 器 中 ， 从 而 启动 设备 。 

4) 驱动 程序 通过 重复 读 取 状 态 寄 存 器 的 
值 来 等 待 设备 操作 完成 。 

5) 驱动 程序 拷贝 控制 器 数据 寄存 器 的 内 
容 到 用 户 进程 空间 。 

完成 输出 操作 的 步骤 为 : 

1) 应 用 进程 请 求 写 操作 。 

2) 设备 驱动 程序 查询 状态 寄存 器 ， 确 定 
设备 是 否 为 空闲 ; 如 果 设 备 忙 ， 则 驱动 程序 循 







系统 接口 





图 5-7 轮 询 1/O 读 操作 
注 : 在 轮 询 I/O 读 操作 中 ;应 用 程序 请 求 读 ， 然 后 阻塞 。 


环 等 待 ， 直 到 它 变 为 空闲 为 止 。 驱动 程序 启动 设备 ， 然 后 持续 检查 设备 的 状态 直到 
3) 驱动 程序 从 用 户 空间 中 拷贝 数据 到 控 1/O 操 作 完成 。 驱 动 程序 完成 数据 传输 ， 清 理 状态 寄 
制 器 数据 寄存 器 中 。 | 存 器 ， 并 将 控制 权 返 回 给 应 用 程序 。 
4) 驱动 程序 把 输出 命令 存 人 命令 寄存 器 
中 ， 从 而 启动 设备 。 


5) 驱动 程序 通过 重复 读 取 状 态 寄存 器 的 值 来 等 待 设备 操作 完成 。 

每 个 MD 操作 都 要 求 软 、 硬 件 相 互 配合 ， 协 同 操作 来 完成 请 求 。 在 使 用 轮 询 的 直接 1/O 方 式 中 ， 这 种 
协同 性 是 通过 把 与 设备 控制 器 硬件 相互 作用 的 软件 部 分 ， 全 部 包含 在 设备 驱动 程序 中 来 实现 的 。 然 而 ， 这 
种 方法 通常 难以 使 CPU 获得 有 效 地 利用 ， 因 为 CPU 必须 不 断 地 检查 设备 控制 器 状态 寄存 器 ， 结 果 是 当 设 
备 忙 时 ，CPU 周期 被 重复 地 用 于 检测 控制 器 接口 。 如 同 5.1 节 中 所 提 到 的 ， 在 多 道 程序 运行 的 系统 中 ， 这 
些 浪费 的 CPU 周期 可 以 被 其 他 进程 所 利用 。 因 为 可 以 在 一 个 进程 等 待 1/O 操作 完成 的 同时 将 CPU 分 配给 
其 他 进程 使 用 ， 利 用 检测 I/O 操作 完成 的 时 间 ， 可 以 实现 多 道 程序 运行 。 这 可 以 通过 使 用 中 断 技术 来 进 
行 。 
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5.2.2 中 断 驱 动 |/O 


将 中 断 技术 结合 在 硬件 中 实现 的 动机 ， 是 为 了 消除 设备 驱动 程序 不 断 地 轮 询 控制 器 状态 寄存 器 的 开 
销 。 由 此 实现 当 IO 操作 结束 后 ， 由 设备 控制 器 “自动 地 ”通知 设备 驱动 程序 。 在 使 用 中 断 的 情况 下 ， 设 
备 管理 的 功能 性 可 以 划分 成 4 个 部 分 : 

m 初始 化 1/0 操作 的 设备 驱动 程序 的 “上 半 部 分 ”( 在 BSD UNIX 中 用 的 名 字 ) 

里 设备 状态 表 

m 中 断 处 理 程序 

图 设备 处 理 程序 

在 使 用 中 断 的 系统 中 ， 执 行 输入 指令 的 步骤 如 下 (参见 图 5-8): 





图 5-8 中 断 驱 动 的 I/O 操作 
注 : 在 中 断 驱 动 的 MO 操作 中 ， 应 用 程序 请 求 读 操作 ， 然 后 阻塞 ， 驱 动 程序 的 上 半 部 分 启动 设备 ， 执 行 完 相应 的 
操作 后 停止 。 由 中 断 引起 设备 处 理 程序 运行 来 完成 MO 操作 ， 完 成 数据 传输 ， 并 将 控制 权 启 回 给 应 用 程序 。 


1) 应 用 进程 请 求 读 操作 。 

2) 设备 驱动 程序 的 上 半 部 分 查询 状态 寄存 器 ， 确 定 设备 是 否 空 闲 ; 如 果 设 备 忙 ， 则 驱动 程序 等 待 ， 
直到 它 变 为 空闲 为 止 。 

3) 驱动 程序 把 输入 命令 存 人 控制 器 的 命令 寄存 器 中 ， 从 而 启动 设备 。 

4) 当 设备 驱动 程序 的 上 半 部 分 完成 了 它 的 工作 ， 根 据 操作 情况 保存 相应 信息 ， 这 些 信 息 一 开始 是 保 
存在 设备 状态 表 (device status table) 中 的 ， 系 统 中 的 每 个 设备 在 表 中 都 有 对 应 的 表 项 。 接 着 驱动 程序 的 上 
半 部 分 将 信息 写 人 到 设备 对 应 的 表 项 中 ， 如 最 初 调用 的 返回 地 址 ， 以 及 1/O 操作 的 一 些 特定 参数 等 。 然 后 
CPU 就 可 以 分 配给 其 他 进程 使 用 了 ， 因 此 设备 管理 器 调用 进程 管理 器 的 调度 程序 执行 ， 原 进程 的 执行 就 被 
暂停 了 。 

5) 最 后 ， 设 备 完成 了 操作 并 中 断 CPU， 从 而 引起 中 断 处 理 程序 (interrupt handler) 的 运行 。 

6) 中 断 处 理 程序 确定 是 哪个 设备 引起 的 中 断 ， 然 后 分 支 转移 到 该 设备 对 应 的 设备 处 理 程序 (device 
handler) 执行 。 

7) 设备 处 理 程序 重新 从 设备 状态 表 中 找到 等 待 1/O 操作 完成 的 进程 状态 信息 。 

8) 设备 处 理 程序 拷贝 控制 器 数据 寄存 器 的 内 容 到 用 户 进程 空间 。 
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9) 设备 处 理 程序 一 一 作为 由 应 用 进程 激活 的 设备 驱动 程序 的 下 半 部 分 ， 将 控制 权 返 回 给 应 用 进程 ， 
从 而 继续 运行 。 

输出 的 操作 行为 与 之 类 似 。 从 应 用 线程 的 观点 来 看 ， 活 动 过 程 具 有 串 行 执行 的 语义 一 与 一 般 过 程 调 
用 的 语义 是 相同 的 。 然 而 ， 执 行程 序 的 时 间 要 小 于 轮 询 系统 中 所 用 的 时 间 ， 这 取决 于 计算 与 [LO 的 时 间 
比 ， 以 及 进程 轮 询 设备 的 及 时 性 。 在 轮 询 系统 中 增加 的 延迟 时 间 ， 源 于 设备 完成 操作 与 执行 的 程序 检测 到 
这 个 事件 并 继续 正常 执行 之 间 的 时 间 延 迟 的 累积 。 


5.2.3 中 断 1/0 与 轮 询 |/O 的 性 能 比较 


通常 ， 执 行 一 个 线程 的 时 间 可 以 分 为 : 
。 timeme: 计算 时 间 。 
。 timegevie: I/O 操作 时 间 。 
。 timeovwerhead: 进程 用 于 确定 每 个 1/O 〇 操作 结束 的 时 间 。 
所 以 ,执行 计算 的 总 时 间 是 : 
timeout = timneompue + timedevioe + timeoverhead 
在 一 个 使 用 轮 询 的 I/O 〇 设备 管理 器 中 ，timewerpeag = timepoying 是 指 设备 处 理 完 一 个 1/O 操作 后 ， 到 线程 
轮 询 确定 操作 已 经 结束 期 间 的 时 间 累 计 (timepone)， 这 通常 只 有 几 条 指令 执行 时 间 的 长 短 。 
在 一 个 使 用 中 断 的 系统 中 ，timeowerpeaa 按 下 面 的 式 子 计算 : 
tiMeoverhead = timehandle + timeready 
其 中 ，timehaas 是 指 请 求 执行 中 断 处 理 程序 和 设备 处 理 程序 例 程 所 用 的 时 间 ，timewu 是 指 线程 在 完成 
1/ 〇 操作 后 ， 等 待 男 一 个 线程 正在 使 用 的 CPU 期 间 累计 的 时 间 。 
从 单个 进程 的 观点 来 看 ， 轮 询 通常 是 较 好 的 ， 因 为 通常 情况 下 
timepoing< timehander + timeready 
然而 ， 若 考虑 这 两 种 处 理 方法 对 系统 整体 性 能 的 影响 ， 多 线程 情形 与 只 有 一 个 线程 的 情况 刚好 相反 。 
假定 系统 中 有 三 个 线程 准备 执行 ， 线 程 1、2、3 分 别 需 要 在 时 间 timeo timeo M timewww 内 完成 。 在 一 
个 轮 询 系统 中 ,线程 1 可 能 在 线程 2 开始 前 已 经 运行 结束 ， 线 程 2 可 能 在 线程 3 开始 前 已 经 运行 结束 ， 所 
以 执行 三 个 线程 的 总 时 间 为 : 
timeporaL P = timewtall + timetoub + timers 
在 一 个 使 用 中 断 的 系统 中 ， 当 线程 1 在 处 理 IMO 操作 时 ， 通 过 与 线程 2 和 线程 3 的 并 发 运行 ， 能 够 更 
好 地 利用 CPU。 理 想 情况 下 : 
timedevicel SS timecmpurez 
timedeioo<timecmpura 
time devices Stimeoompotet 
这 意味 着 在 使 用 中 断 的 系统 中 ， 热 行 三 个 线程 的 总 时 间 为 : 
timeroTAL I = timeumputel 十 timeumpute2 + timemmpute3 + tiMeverhead 
其 中 ， 时 间 timene ERER time Mo FARAR imeona ! 除 以 3 得 到 ， 因 
此 ， 在 使 用 中 断 的 情况 下 ， 执 行 一 个 线程 的 平均 时 间 比 使 用 轮 询 少 得 多 。 


5.3 设备 管理 器 设计 


设备 管理 使 用 特权 指令 来 操纵 硬件 设备 ( 见 图 3-10)， 它 提供 了 物理 资源 的 第 一 层 抽象 ， 文 件 管理 器 
和 应 用 程序 都 可 以 使 用 物理 资源 抽象 来 读 、 写 及 存储 信息 。 

应 用 程序 要 实现 对 1/O 设备 的 操作 ， 是 通过 系统 调用 来 请 求 操作 系统 控制 设备 、 执 行 相应 的 功能 。 这 
意味 着 系统 调用 接口 要 包括 一 些 可 以 对 计算 机 上 的 任何 设备 进行 操作 的 函数 。 因 为 不 同 的 设备 有 不 同 的 操 
作 ， 系 统 调用 接口 怎样 完成 这 些 任务 昵 ? 如 有 些 设备 仅 能 读 ， 有 的 设备 仅 能 进行 写 操作 ， 有 的 有 特定 的 命 
令 来 启动 /关闭 设备 等 。 操 作 系统 设 计 者 选择 了 一 组 函数 集合 ， 它 包括 了 ” 个 不 同 的 系统 调用 函数 ， 可 以 
用 来 对 任何 设备 进行 所 有 可 能 的 操作 。 一 些 特定 的 设备 可 能 并 不 对 其 中 的 一 些 操作 起 反应 ， 如 键盘 设备 可 
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能 并 不 对 write () 系统 调用 起 反应 ， 但 是 在 系统 调用 接口 中 该 函数 名 仍然 存在 。 

n 个 不 同 的 系统 调用 (通过 系统 调用 表 ) 指向 内 核 中 ”个 不 同 的 人 口 点 。 图 5-9 中 展示 了 第 i 个 设备 
函数 〈 例 如 这 里 是 read ()) 的 系统 调用 表 项 和 代码 框架 。 当 一 个 用 户 程 序 想 要 调用 针对 设备 ; 的 第 i 个 
函数 时 ， 它 发 出 一 个 形式 为 funci (j, ...) 的 系统 调用 ， 并 进入 dev _ func _ i () 系统 函数 。 如 果 有 一 些 
对 所 有 设备 都 要 进行 的 处 理 操 作 ， 则 可 以 放 到 此 函数 的 前 面 或 后 面 来 执行 。switch 中 的 每 个 case 语句 可 
能 有 更 多 的 代码 ， 但 图 中 并 没有 对 此 进行 解释 ， 例 如 ， 正 确 地 将 参数 进行 打包 实现 特定 设备 的 函数 调用 。 

在 这 种 方法 中 ， 无 论 何 时 有 新 设备 添加 到 系统 中 ， 图 5-9 中 描述 的 操作 系统 源 代 码 段 要 进行 修改 ， 要 
将 新 设备 的 驱动 函数 添加 进去 ， 然 后 对 操作 系统 进行 重新 编译 。 因 此 ， 安 装 驱动 程序 的 单位 和 组 织 必须 要 
有 操作 系统 源 代码 的 一 份 拷贝 ， 以 及 添加 设备 所 需要 的 知识 。 当 计算 机 和 所 有 的 设备 来 自 相同 的 供应 商 
时 ， 这 种 方案 是 可 以 接受 的 ， 因 为 供应 商会 在 安装 设备 时 添加 好 驱动 程序 。 然 而 ， 由 于 经 济 上 的 压力 及 开 
放 系统 的 引入 ， 导 致 了 从 第 三 方 购 买 设 备 和 驱动 程序 的 组 织 将 不 得 不 修改 和 安装 操作 系统 源 代码 。 


系统 调用 表 










dev_func_i(devID, =) { 
//processing common to all devices 





switch (devID) { 
case dev0: devo func i(.…); 







break; 
case devi: devi_func_i(--); 







break; 





case devM: devM_func_i(--); 
break; 







}; 


//processing common to all devices 


} 





图 5-9 设备 无 关 的 函数 调用 
TE: 操作 系统 提供 了 一 组 函数 集 ， 它 可 以 应 用 于 每 个 设备 上 。 设 备 管理 的 基础 部 分 通过 设备 ID 参数 来 将 请 求 发 
送 给 设备 驱动 程序 的 相应 函数 。 


5.3.1 设备 相关 的 驱动 程序 基础 框架 


操作 系统 的 设备 无 关 部 分 提供 了 一 个 框架 ， 应 用 程序 可 以 使 用 它 来 调用 n 个 不 同系 统 调用 函数 中 的 任 
何 - 个 ， |func;(...) 10 委 i<nal。 例 如 ,在 POSIX 集合 中 有 n=6 个 函数 | open (), close (), read 
Q), write (), lseek (), ioctl ()}。 每 个 设备 控制 器 都 提供 了 一 个 特定 的 硬件 接口 给 软件 ， 接 口 细节 包 
括 了 用 来 发 送 给 设备 的 命令 、 状 态 和 返回 的 错误 报告 、 定 时 和 软件 如 何 控制 设备 的 其 他 需求 。 由 于 涉及 的 
细节 比较 多 ， 接 口 可 能 很 复杂 。 设 备 驱动 程序 使 用 特定 的 设备 硬件 接口 来 实现 抽象 的 I/O 操作。 设备 驱动 
程序 被 分 成 ”个 不 同 的 函数 ， 它 们 可 以 经 由 系统 调用 接口 (通过 设备 管理 器 的 设备 无 关 部 分 ) 进行 访问 。 
所 以 ， 每 个 设备 驱动 程序 的 实现 被 两 个 接口 所 限制 : 用 来 控制 设备 的 硬件 接口 和 可 由 系统 调用 接口 进入 的 
n 个 函数 软件 接口 。 

使 用 这 个 框架 ， 通 过 在 ”个 设备 驱动 程序 的 基础 上 为 新 设备 增加 一 个 新 的 case 子 句 到 switch 语句 中 
(为 新 的 设备 调用 相应 函数 ) ， 然 后 对 内 核 和 驱动 程序 进行 编译 ， 使 得 设备 无 关 框架 中 包括 了 新 函数 的 人 口 
点 ， 设 备 管理 软件 就 增加 到 已 有 的 系统 中 去 了 。 

现代 的 操作 系统 通过 使 用 可 重 配置 的 设备 驱动 程序 (reconfigurable device drivers) 来 简化 驱动 程序 的 安 
装 。 在 这 样 的 系统 中 ， 人 允许 系统 管理 员 将 设备 驱动 程序 增加 到 操作 系统 中 ， 而 不 用 重新 编译 OS (尽管 系 
统 必 须 通过 一 组 操作 来 进行 重新 配置 )。 这 个 重新 配置 使 用 一 种 间接 调用 的 窍门 来 完成 ， 使 得 操作 系统 能 
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在 运行 时 将 其 代码 与 设备 驱动 函数 绑 定 。 例 如 ， 在 图 5-9 中 的 代码 框架 通过 将 switch 语句 变形 为 dev _ 
func_if] (...)， 使 用 间接 表 的 方式 来 调用 设备 j 的 函数 。 
dev_func_i [j] (...); 


这 是 调用 dev_func_i eh | 个 项 中 的 人 口 点 地 址 的 函数 ，dev _ func _ i 表 的 第 j 个 项 中 包含 了 函数 
func; (j, -..) 的 入 口 点 地 址 ， 也 即 调用 func;(j，...)。 这 样 做 的 优点 是 函数 人 口 点 的 地 址 可 以 在 运行 
时 写 人 表 中 。 也 就 是 说 ， 操 作 系 统 在 编译 时 可 以 调用 设备 的 特定 函数 ， 而 这 个 设备 可 能 在 编译 时 并 不 知道 
( 见 图 5-10)。 这 是 设备 管理 器 的 设备 无 关 部 分 实现 可 配置 设备 驱动 程序 的 一 种 基本 方法 。 这 暗示 着 系统 在 
.增加 设备 驱动 程序 时 ， 有 一 个 设备 注册 过 程 ， 它 可 以 使 用 特定 系统 调用 来 填写 dev_func_i(...) 函数 
使 用 的 人 口 点 表 。 这 也 是 Linux 内 核 中 使 用 的 方法 【Nutt，2001]。 


系统 调用 接口 


open () {…} l 
read() {+} 1 


设备 的 驱动 程序 

























设备 j 的 人 口 点 


5-10 可 重 配置 的 设备 驱动 程序 
注 : 支持 可 重 配置 驱动 程序 的 设备 管理 器 使 用 一 个 间接 表 (对 每 个 系统 调用 ) 来 引用 各 自 的 设备 函数 。 特 定 设 
备 的 表 项 可 以 用 对 设备 驱动 程序 进行 注册 的 实用 程序 在 运行 时 建立 。 


5.3.2 服务 中 断 


5.2 节 描 述 了 如 何 为 轮 询 设备 编写 设备 相关 代码 。 对 于 中 断 驱动 的 设备 ， 除 了 设备 驱动 程序 外 ， 还 有 
另外 一 些 设备 相关 程序 : 对 设备 必须 要 有 一 个 设备 中 断 处 理 程序 和 一 个 类 似 于 设备 状态 表 的 机 制 ， 可 以 
通过 它 来 将 状态 信息 从 设备 驱动 程序 传递 到 设备 中 断 处 理 函 数 ( 见 图 5-11a) 。 系 统 中 断 处 理 程序 调用 设备 
处 理 程序 ， 使 用 了 一 种 类 似 于 从 应 用 程序 来 调用 驱动 程序 函数 的 机 制 。 也 就 是 说 ， 中 断 处 理 程序 来 查询 由 
一 组 函数 定义 的 接口 ， 它 已 经 在 操作 系统 中 注册 过 。 对 于 可 重 配 置 的 设备 ， 可 以 使 用 另 一 个 间接 表 来 保存 
设备 中 断 处 理 程序 入 口 点 ， 可 由 一 个 特定 的 系统 调用 在 安装 设备 时 设置 。 

在 当代 的 操作 系统 中 ， 进 程 管理 器 至 少 包含 了 一 个 同步 机 制 (在 第 8 章 中 解释 )， 同 步 机 制 可 以 被 两 
个 独立 的 线程 (在 两 个 不 同 的 进程 内 ) 使 用 ， 可 以 使 得 一 个 线程 进入 阻塞 状态 ， 并 让 出 CPU， 直 到 另 -一 个 
线程 发 送信 号 给 它 为 止 。UNIX 的 wait O 系统 调用 〈 见 2.4 节 ) 使 得 调用 线程 进入 阻塞 状态 ， 直 到 另 一 
个 线程 发 送信 号 给 阻塞 线程 。 如 果 操 作 系 统 包含 同步 函数 来 阻塞 进程 ， 它 也 将 包含 另 一 个 函数 来 发 送信 和 号 
给 阻塞 进程 ， 使 阻塞 进程 进入 就 绪 状 态 并 能 继续 使 用 CPU。 由 于 有 了 wait () 和 signal () 系统 调用 接 
口 ， 一 般 的 中 断 驱动 型 设备 管理 器 可 以 让 设备 驱动 程序 包含 所 有 的 状态 信息 〈 见 图 5-11b) 而 无 须 使 用 设 
备 状态 表 。 设 备 了 驱动 程序 初始 化 ORE, 在 设备 进行 I/O 操作 时 设备 驱动 程序 使 用 wait O 函数 来 阻塞 
自己 。 当 设备 完成 时 ， 设 备 中 断 处 理 程序 将 执行 必要 的 清除 操作 ， 然 后 发 送信 号 给 阻塞 的 驱动 程序 。 设 备 
驱动 程序 解除 阻塞 ， 执 行 一 些 必要 的 清除 操作 ， 然 后 返回 到 应 用 程序 。 
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设备 驱动 程序 J 设备 状态 表 设备 中 断 处 理 程序 J 









int read(--) { void dev_handler(--) { 


/ {prepare for 1/0 get_state (J); 

save _state(J); //Cleanup after op 

out devi signal (dev[j]); 

//Done (no return) return_from-sys_call(); 


} 


a) 


设备 驱动 程序 J 
设备 中 断 处 理 程序 J 


int read(---) { 








out dev# void dev_handler(---) { 

//Return after interrupt //Cleanup after op 
wait (dev[J]); signal (dev[j]); 
return_from_sys_call(); 












} 





中 断 处 理 程序 






图 5-11 处 理 中 断 
TE: 如 图 a) 所 示 ， 中 断 驱动 的 设备 逻辑 上 将 驱动 程序 分 成 两 部 分 ， 第 一 部 分 由 应 用 程序 来 调用 ， 这 段 代 码 启动 
设备 ， 将 状态 写 到 设备 状态 表 ， 然 后 终止 。 当 设备 引发 一 个 中 断 时 ， 也 就 是 第 二 部 分 ， 中 断 处 理 程序 转 到 
具体 的 设备 处 理 程序 。 它 得 到 状态 ， 完 成 MO 处 理 ， 然 后 返回 到 应 用 程序 。 在 b) 中， 我 们 看 到 可 以 对 软件 
配置 进行 改变 ， 使 得 第 一 部 分 可 以 挂 起 自己 直到 设备 处 理 程序 通知 它 操作 完成 。 这 意味 着 挂 起 的 设备 驱动 
程序 在 其 内 部 保持 状态 ， 而 不 是 将 状态 信息 写 到 设备 状态 表 中 。 





示例 : Linux 设备 /DO 
Linx 内 核 中 的 设备 驱动 程序 是 可 动态 配置 的 ， 内 核 通 过 主 设备 号 和 次 设备 号 来 引用 不 同 的 设备 驱动 


程序 。 设 备 的 主 设备 号 通常 标识 了 驱动 程序 能 够 管理 的 设备 的 种 类 ， 所 以 相同 的 设备 驱动 程序 可 以 用 在 不 


同 的 但 是 兼容 的 硬盘 上 。Linux 社团 已 经 对 设备 种 类 的 主 设备 号 达成 了 一 致意 见 ， 例 如 ， 软 盘 的 主 设备 号 


为 2，IDE 硬盘 的 主 设备 号 为 3， 并 行 端口 的 主 设备 号 为 6 等。 在 /includevlinux 下 的 major.h 文 件 提供 了 
Linux 发 行 版 的 所 有 主 设备 号 列表 。 次 设备 号 是 一 个 8 位 的 数字 ， 它 用 来 表示 一 个 特定 种 类 ( 主 设备 号 ) 


的 特定 设备 。 因 此 ， 同 一 机 器 上 的 两 个 软盘 有 相同 的 主 设备 号 2， 第 一 个 软盘 的 次 设备 号 为 0， 第 二 个 软 


盘 的 次 设备 号 为 1。 





内 核 必须 知道 设备 的 存在 。 当 内 核 引 导 时 ， 通 常情 况 下 ， 它 将 为 系统 中 的 每 个 设备 创建 一 个 特殊 文 
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fF. FERIA (special file) 是 /dev 下 的 一 个 条 目 ， 它 可 用 来 标识 设备 的 设备 驱动 程序 。 这 可 以 通过 mknod 
命令 来 完成 : 
mknod /dev/< dev _ name> < type> < major _ number > <minor _ number > 


<dev oe eae (你 可 以 通过 列 出 /dev 目录 下 的 文件 来 查看 它 )。 对 字符 设备 来 说 ， 
<type> 参 数 为 “c" ， 对 块 设备 来 说 ，< type> 参 数 为 “b"”。 当 然 ，<major number > H< minor number> 
分 别 是 设备 的 主 设备 号 和 次 设备 号 。 
设备 的 接口 和 文件 系统 的 接口 看 起 来 相同 ， 每 个 文件 系统 定义 了 一 组 固定 的 操作 集 (适用 于 任何 一 个 
文件 和 目录 )， 操 作 集 可 以 通过 struct file _ operations 说 明定 义 ( 见 include/linux/fs.hJ)。 可 以 为 任何 
设备 驱动 程序 定义 这 些 函 数 : 
struct file operations { 
loff_t (*llseek) (struct file *, loff_t, int); 
ssize t (*read) (struct file *, char +, size t, loff_t *); 
ssize t (*write) (struct file *, const char *, size_t, loff_t *); 
int (*readdir) (struct file *, void *, filldir_t); 
unsigned int (*poll) (struct file *, struct poll_table struct *); 
int (*ioctl) (struct inode *, struct file *, unsigned int, 
- unsigned long); 
int (*mmap) (struct file *, struct vm_area_struct *); 
int (*open) {struct inode *, struct file *); 
int (*flush) (struct file *); 
int (*release) (struct inode *, struct file *); 
int (*fsyne) (struct file *, struct dentry *); 
int (*fasync) (int, struct file *, int); 
int (*check_media_change) (kdev_t dev); 
int (*revalidate) (kdev_t dev); 
int (*lock) (struct file *, int, struct file_lock *); 
+; 


设备 驱动 程序 仅 需要 定义 设备 相关 的 一 些 特殊 的 函数 ， 例 如 ， 只 用 作 输 入 的 设备 可 能 并 没有 write () 
消 数 ， 只 用 作 输 出 的 设备 可 能 并 没有 read () 函数 。 设 备 驱动 程序 设计 者 决定 接口 上 的 哪个 函数 需要 操作 
设备 ， 并 实现 想 要 的 函数 ， 然 后 创建 一 个 包含 相应 人 口 点 定义 的 file_ operations 结构 的 实例 。 

对 于 一 个 类 型 为 “fco” 的 设备 ， 常 规 的 设备 驱动 程序 应 该 定义 一 个 初始 化 函数 foo init (), ESTE 
内 核 启动 时 被 调用 。 例 如 ， 对 串 行 口 来 说 ， 有 一 个 tty _ init () 函数 ， 对 硬盘 来 说 ， 有 一 个 hd_init () 
函数 等 。 下 一 步 ， 内 核 初始 化 代码 必须 被 修改 ， 使 得 它 调 用 新 的 foo _ in 让 〈) 函数 。 如 果 它 是 一 个 字符 设 
备 ， 在 文件 /drivers/char/mem.c 中 的 chr_dev_ init () 必须 修改 。 类 似 地 ， 对 于 块 设备 ， 在 文件 /drivers/ 
block/11_rw_bl.c #78) blk_dev_init () 函数 必须 修改 。SCSI 和 网 络 设备 的 驱动 程序 也 有 它们 自己 的 初始 
化 例 程 。 

当 设 备 驱 动 程序 被 安装 时 (例如 ， 机 器 引导 时 )，foo init O 函数 可 以 让 设备 驱动 程序 来 建立 需要 
的 数据 结构 。 初 始 化 代码 应 该 向 内 核 注 册 设 备 驱 动 程序 接口 一 一 file _ operations 结构 ， 对 字符 设备 使 用 
register _ chrdev() 函数 ， 对 块 设 备 使 用 register_blkdev () 函数 。 例 如 ， 如 果 假 定 的 ， “foo” 设 备 是 

一 个 字符 设备 ， 那 它 的 驱动 程序 包含 了 函数 ， 


foo_init() 
{ 





struct file operations foo fops = { 


NULL; /* llseek - default */ 
foo_read; /* read */ 

foo_write; /* write */ 

NULL; /* readdir */ 

NULL; /* select */ 
foo_ioctl; /* ioctl */ 

NULL; /* mmap */ 

foo_open; /* open */ 


NULL; /* release */ 
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}; 
register chrdev(FOO MAJOR, “foo”, &foo fops); 
/* Other initialization ... */ 

} 

一 旦 设备 驱动 程序 被 初始 化 ， 内 核 可 以 将 如 open (/dev/foo, O_ RDONLY) 的 系统 调用 转 到 驱动 程序 中 
的 foo_ open () 函数 中 。 

在 一 个 中 断 类 型 的 设备 驱动 程序 中 ， 每 个 人 口 点 是 初始 化 MO 操作 的 驱动 程序 的 一 部 分 。 一 旦 设备 启 
动 ， 在 它 等 候 来 自 设 备 的 中 断 时 ,调用 进程 进入 阻塞 状态 并 且 被 挂 起 。 因 此 ， 当 你 编写 一 个 使 用 中 断 方式 
的 入口 点 函数 时 ， 要 编写 一 个 单独 的 设备 处 理 函 数 。 一 旦 中 断 发 生 ， 设 备 处 理 程序 将 被 调用 。 内 核 如 何 知 
道 调用 哪 一 个 设备 处 理 函 数 呢 ? 你 需要 使 用 内 核 函数 request _irq () 来 将 设备 处 理 函 数 与 特定 的 中 断 相 
关联 ， 并 在 内 核 中 注册 设备 处 理 函 数 。 

A 


5.4 缓冲 


缓冲 是 人 们 日 常生 活 中 使 用 的 一 项 技术 ， 它 可 以 帮助 人 们 同时 做 两 件 或 多 件 事情 。 例 如 ， 想 像 一 下 为 
办 公 室 发 送 瓶 装 饮用 水 的 公司 (E 5-12 中 的 纯 饮 用 水 公司 )。 公 司 为 办 公 室 员工 提供 了 半 打 的 满 瓶 饮用 
水 ， 在 水 被 消费 的 期 间 ， 供 应 水 的 公司 同时 也 在 往 空 瓶 内 注入 饮用 水 ， 以 备 下 个 星期 使 用 。 每 个 水 瓶 就 是 
一 个 缓冲 的 例子 。 如 果 供应 水 的 公司 想 要 保留 一 打 的 水 瓶 来 为 顾客 使 用 ， 则 供应 水 的 公司 在 注入 半 打 水 瓶 
的 同时 ， 顾 客 可 以 消费 另 半 打 的 饮用 水 。 你 可 以 想像 一 下 很 多 在 商业 上 使 用 缓冲 的 例子 ， 甚 至 在 每 个 人 的 
生活 中 。 


客户 办 公 室 返回 空 并 饮用 水 公司 








送水 


图 5-12 纯 饮 用 水 公司 
注 : 每 个 水 瓶 是 一 个 缓冲 ， 提 供 饮用 水 的 公司 发 送 充满 水 的 水 瓶 ， 将 空 瓶 收回 并 重新 注入 饮用 水 。 消 费 者 从 不 
需要 等 候 水 ， 因 为 水 已 经 在 缓冲 区 中 ， 并 在 用 户 发 出 请 求 饮用 水 之 前 将 水 送 给 用 户 。 


在 进程 并 不 需要 I/O 操作 时 ， 设 备 管理 器 使 用 缓冲 来 保持 LO 设备 忙 ， 这 样 可 以 使 得 设备 与 CPU 操 
作 交 迭 执 行 。 输 入 缓冲 是 这 样 一 种 技术 : 它 在 进程 请 求 信息 之 前 让 输入 设备 将 信息 拷贝 到 主 存储 器 中 。 输 
出 缓冲 是 这 样 一 种 技术 : 它 将 信息 保存 在 主 存储 器 中 ， 然 后 在 进程 继续 执行 的 同时 将 信息 写 人 到 设备 。 

考虑 一 个 简单 的 字符 设备 控制 器 的 情况 ， 它 每 次 从 调制 解 调 器 中 读 取 一 个 字 节 作 为 输入 操作 ， 如 图 
5-13a 所 示 。 控 制 器 的 一 般 操作 模式 是 ， 使 用 一 个 字 节 容量 的 数据 寄存 器 ， 保 存 驱 动 程序 读 取 的 最 近 字 符 。 
当 应 用 程序 开始 下 一 个 读 操作 时 ， 驱 动 程序 传送 另 一 个 命令 到 控制 器 , 控制 器 指示 设备 输入 下 一 个 字 节 到 
数据 寄存 器 中 。 需 要 字 节 的 调用 进程 等 待 操作 结束 ， 然 后 从 数据 寄存 器 中 取 走 字符 。 

在 图 5-13 的 b) 和 c) 中 可 以 看 到 ， 在 控制 器 中 增加 硬件 缓冲 (hardware buffer) 后 ， 如 果 控 制 器 提前 
读 取 需 要 的 字符 ， 可 以 减少 进程 等 待 字符 的 时 间 。 在 图 5-13b 中 ， 进 程 下 一 个 要 读 取 的 字符 已 经 被 控制 器 
放 入 数据 寄存 器 B 中 了 ， 然 后 ,设备 读 取 下 一 个 字符 ， 将 其 放 入 数据 寄存 器 A 中 ,但 此 时 程序 还 没有 调用 
读 操作 。 在 图 5-13c 中 ， 进 程 请 求 已 提前 读 人 到 数据 寄存 器 A 中 的 字符 ， 因 而 设备 在 开始 读 操 作 的 同时 填 
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充 缓冲 B。 设 备 对 第 ; + 1 个 字符 的 读 操 作 将 与 CPU 对 第 i MFARRAK. MRS FAS 
符 的 时 间 ， 刚 好 与 进程 处 理 上 一 字符 到 请 求 下 一 字符 的 时 间 间 隔 相 等 ， 那 么 就 可 以 完全 交 迭 进行 了 。 








非 缓冲 进程 读 p ， 进程 读 b， 
控制 器 读 b 控制 攻读 b, 


a) 


b) 


c) 


图 5-13 ”硬件 缓冲 
È: Bla) 显示 了 如 何在 驱动 程序 和 控制 器 间 使 用 一 个 共享 寄存 器 进行 顺序 操作 。 图 bj) Mc) 说 明了 具有 两 个 
缓冲 的 设备 控制 器 ， 当 一 个 进程 处 理 某 个 缓冲 的 字 节 i 时 ， 设 备 可 以 将 i+ 1 个 字 节 读 进 (或 将 i 一 1 个 字 节 


写 进 ) 另 一 个 缓冲 区 。 


硬件 缓冲 技术 也 能 够 应 用 于 控制 器 - 驱动 程序 
层面 中 ( 见 图 5-14)， 这 通常 称 为 双 缓 冲 (double 
buffering) ， 因 为 系统 中 有 两 个 缓冲 ， 一 个 缓冲 是 用 
于 驱动 程序 存储 数据 ， 等 待 更 高 层 的 应 用 来 读 取 使 
用 ; 另 一 个 用 于 存储 从 低层 模块 (控制 器 ) 来 的 数 
据 。 图 5-14 中 的 例子 解释 了 软件 和 硬件 字 节 双 缓 冲 
技术 。 这 种 技术 同样 也 可 用 于 面向 块 的 设备 ， 如 磁 
带 设备 。 在 这 种 情况 下 ， 控 制 器 和 驱动 程序 中 的 每 
一 个 缓冲 都 必须 足够 大 ， 以 存储 整个 块 的 数据 ， 而 
不 仅仅 是 单个 字 节 。 | 

在 图 5-15 中 ,缓冲 的 数目 从 2 扩展 到 了 ”。 数 
据 “ 生 产 者 ” (producer) 向 第 i 个 缓冲 中 写 人 数据 
(设备 控制 器 在 读 ; CPU 在 写 ) ， 而 同时 数据 “消费 
者 ” (consumer) 从 第 j 个 缓冲 中 读 取 数 据 (控制 器 
在 写 ; CPU 在 读 )。 在 这 种 配置 中 ， 缓 冲 单元 从 7 到 
n-1, URM OB ;-1 是 满 的 。 当 生产 者 在 填充 组 
冲 单元 : 时 ， 消 费 者 能 够 读 取 缓 冲 单元 )，j + 1，j + 
2, ..., n71, URZO, 1, ..., i 一 1 中 





硬件 


K 5-14 ”驱动 程序 中 的 双 缓 冲 
注 : 在 这 种 情况 下 ， 驱 动 程序 中 使 用 了 双 缓 冲 技术 
(在 控制 器 硬件 设备 中 也 实现 了 双 缓 冲 技术 )。 


的 数据 ;反之 ， 当 消费 者 在 读 取 单 元 ; 中 数据 时 ， 生 产 者 能 够 填充 单元 i, i+1, i+2，...，j -1。 在 这 
PARRY (circular buffering) 技术 中 ， 生 产 者 不 能 “超过 ”消费 者 ， 因 为 在 消费 者 消费 之 前 ， 生 产 者 不 
能 重 写 单元 的 数据 。 当 缓冲 j 中 的 数据 等 待 消费 时 ， 生 产 者 只 能 填充 到 j - 1 缓冲 单元 。 类 似 地 ， 消 费 者 
不 能 “超过 ”生产 者 ， 因 为 必须 生产 者 将 数据 放 人 缓冲 后 ， 消 者 费 才能 读 取 数据 信息 。 

增加 更 多 的 缓冲 能 够 提高 性 能 吗 ? 缓冲 对 性 能 的 影响 严重 依赖 于 进程 的 特征 和 设备 类 型 。 第 一 个 先决 
条 件 是 : 设备 驱动 程序 需要 知道 足够 的 从 设备 上 读 取 数据 的 方式 信息 ， 使 得 它 可 以 预测 哪些 数据 在 最 近 的 
将 来 需要 读 取 。 这 对 顺序 设备 来 说 很 容易 ， 但 对 随机 访问 设备 来 说 基本 上 是 不 可 能 的 。 
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第 二 个 先决 条 件 是 : 线程 的 行为 要 对 缓冲 有 益 。 有 的 进程 是 LO 限制 的 《I/O ~ bound), 意味 着 总 的 
执行 时 间 主 要 由 执行 1O 操作 时 间 组 成 ， 例 如 .将 一 个 文件 拷贝 到 另 一 个 文件 的 线程 就 是 VO 限制 线程 的 
一 个 例子 。 其 他 的 线程 是 计算 限制 的 《compute-bound) ， 意 味 着 线程 花费 在 O 操作 上 的 时 间 与 花费 在 使 
用 CPU 上 的 时 间 相 比 ， 前 者 的 时 间 较 少 。 计 算 素 数 的 线程 是 计算 限制 的 ， 许 多 线程 有 的 阶段 是 VO 限制 
的 ， 有 的 阶段 是 计算 限制 的 。 到 数据 消费 者 


如 果 应 用 程序 有 时 是 IMO 限制 的 ， 有 时 是 计算 限制 的 ， 设 
备 管理 器 可 使 用 缓冲 管理 技术 来 减少 对 顺序 的 数据 流 执行 I/O < 
的 有 效 时 间 。 如 果 一 个 线程 持续 处 于 1/O 限制 状态 ， 将 会 在 控 


制 器 填充 输入 缓冲 后 ， 尽 快 地 读 取 缓冲 的 数据 ， 在 控制 器 写 设备 
之 前 ,将 数据 填充 到 输出 缓冲 。 如 果 一 个 线程 是 计算 限制 状态 
的 ， 将 会 产生 相反 的 状况 ， 即 输入 缓冲 等 待 填充 ， 输 出 缓冲 是 空 
的 。 简 单线 程 常常 是 纯 1/O 限制 的 ， 更 复杂 的 线程 会 在 某 些 阶 
段 内 是 IO 限制 的 ， 而 在 其 他 阶段 内 是 计算 限制 的 。 





图 5-16 说 明了 在 程序 运行 的 整个 时 间 内 ， 程 序 运行 特性 的 KAREENA 
变化 情况 。 最 初 ， 线 程 是 LORA, Œ n 时 刻 ， 它 变 为 计算 图 5-15 使 用 多 缓冲 
限制 的 ; 然后 在 n 时 刻 ， 它 又 切换 到 1/O 限制 ， 如 此 反复 进行 。 ” 注 : 双 缓 冲 技术 可 以 被 推广 为 ”个 组 
这 个 线程 的 运行 轨迹 表明 ， 能 够 很 好 地 利用 缓冲 技术 ， 使 计算 与 冲 的 使 用 ， 这 也 叫 作 循 环 缓冲 ， 


LO 交 适 运行 。 因 为 在 计算 限制 阶段 ， 控 制 器 将 会 填 满 输 入 组 因为 ”个 缓冲 以 循环 方式 使 用 。 
冲 ， 并 且 以 比 产生 输出 数据 更 快 的 速度 抽空 输出 缓冲 ， 当 进程 变 为 1/O 限制 时 ， 它 将 从 计算 限制 阶段 获得 
可 用 的 缓冲 。 理 想 情况 下 ， 当 进程 又 切换 回 计 算 限制 阶段 时 ， 它 将 又 可 以 使 用 所 有 的 这 些 缓冲 。 


计算 限制 


时 间 





LO 限制 


h h B 4 ts te 


图 5-16 程序 的 各 个 阶段 图 示 
TE: 这 幅 图 解释 了 程序 在 各 个 不 同 阶 段 的 执行 情况 (这 些 阶段 常常 是 循环 出 现 的 )。 在 这 个 例子 中 ， 在 t 时 刻 
前 ,线程 是 1/ 〇 限制 的 ， 从 到 1 时刻 它 是 计算 限制 的 ， 依 此 类 推 。 


5.5 不 同 种 类 设备 的 特征 


到 现在 为 止 ， 我 们 对 设备 管理 的 讨论 适用 于 所 有 的 设备 类 型 。 在 这 一 节 中 ,我 们 将 考虑 一 些 流行 设备 
类 的 特性 ， 操 作 系 统 将 设备 分 为 块 设备 和 字符 设备 。 在 面向 字符 的 设备 上 的 I/O 操作 是 读 写 一 个 字 节 , 在 
块 设备 上 进行 一 次 MO 操作 读 写 的 是 一 个 固定 数目 的 字 节 组 成 的 块 (通常 是 512 字 节 或 更 多 )。 大 多 数 面 
向 字符 的 设备 使 用 串 行 或 并 行 通 信 端 口 ， 这 些 设备 〈 像 调制 解 调 器 和 打印 机 ) 常常 通过 电缆 连接 到 设备 控 
制 器 。 存 储 设备 通常 是 块 设备 ， 它 们 常常 作为 一 个 单个 的 硬件 部 件 结合 到 控制 器 中 。 有 些 块 设备 可 以 顺序 
访问 , 第 i+1 块 紧 跟 着 第 i 块 ， 另 一 些 设备 可 以 以 任何 顺序 访问 块 〈 称 为 随机 访问 )。 

通信 设备 使 用 一 种 媒体 (如 公共 广播 、 同 轴 电 缆 或 者 电话 线 ) 来 将 信息 在 计算 机 和 设备 间 进行 传播 。 
串 行 通信 技术 是 现代 网 络 技术 的 前 身 ， 虽 然 现在 网 络 是 常见 的 计算 机 间 连 接 的 设备 ， 串 行 通信 设备 仍然 大 
量 用 于 将 终端 、 打 印 机 、 扫 描 仪 、 点 笔 设 备 以 及 调制 解 调 器 与 计算 机 相连 。 

顺序 访问 存储 设备 设计 成 在 一 个 操作 完成 后 ， 可 以 很 容易 地 进行 下 一 个 位 置 的 读 写 。 例 如 ， 磁 带 设备 
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如 数字 音频 磁带 (DAT) 是 顺序 访问 的 ， 它 必须 要 以 逐 块 读 的 方式 进行 读 取 。 如 果 DAT 驱动 器 的 磁头 被 
定位 在 可 以 读 取 块 ;的 位 置 ， 则 可 以 对 块 ; 进行 读 写 ， 紧 接着 就 可 以 读 块 ;+ 1。 在 对 这 些 设备 操作 中 ， 并 
不 需要 提供 读 写 信息 的 地 址 ， 因 为 地 址 隐 式 地 由 以 前 的 操作 确定 了 。seek () 命令 可 以 将 设备 读 写 位 置 移 
动 一 段 ， 所 以 ，seek O 用 于 设 定 下 一 个 要 读 写 的 块 的 地 址 。 顺 序 访问 设备 非常 适用 于 缓冲 ， 因 为 下 个 LO 
操作 的 块 地 址 已 经 隐 式 地 规定 好 了 。 

随机 访问 存储 设备 可 以 以 任意 的 顺序 来 从 设备 上 读 取信 息 或 将 信息 写 到 设备 上 。 例 如 ， 软 盘 设 备 是 随机 
访问 存储 设备 。 这 是 因为 在 第 i 块 被 读 之 后 ， 下 一 个 要 读 的 块 可 能 是 块 7， 而 不 必 读 中 间 的 一 些 块 。 因 为 没 
有 顺序 访问 的 假定 ， 因 此 每 个 读 写 需要 指定 设备 的 地 址 。 一 般 来 说 ， 这 种 设备 并 不 能 很 好 地 适用 于 缓冲 (RR 
非 通过 第 13 章 中 描述 的 文件 管理 器 来 访问 )。 


5.5.1 通信 设备 


通信 设备 是 字符 设备 ， 用 于 在 计算 机 和 远程 设备 间 传送 以 字 节 为 单位 的 信息 ( 见 图 5-17)。 为 了 使 用 
设备 ， 驱 动 程序 必须 能 操纵 通信 控制 器 ， 从 而 使 用 控制 器 - 设备 协议 来 操纵 和 管理 设备 。 控 制 器 和 设备 必 
须 在 接口 和 使 用 接口 的 协议 (信息 的 语法 和 语义 约定 ) 上 取得 一 致 。 因 此 ， 要 使 用 串 行 通 信 端 口 将 调制 解 
调 器 连接 到 计算 机 ， 计 算 机 必须 包含 串 行 通信 控 制 器 ， 从 而 就 可 以 使 用 电缆 将 调制 解 调 器 连接 到 计算 机 
上 ， 这 样 控制 器 和 调制 解 调 器 就 可 以 根据 通用 的 协议 来 交换 电信 号 。( 调 制 解 调 器 也 可 以 整合 到 控制 器 中 ， 
而 不 用 使 用 控制 器 与 设备 间 的 连接 电缆 ， 只 需 额外 的 电缆 连接 到 电话 插 孔 。) 


通信 控制 大 


连接 控制 器 与 设备 的 电缆 


总 线 






图 5-17 一般 的 通信 设备 
注 : 通信 设备 常常 有 一 个 控制 器 ， 它 独立 于 任何 设备 ， 除 了 需要 驱动 程序 - 控制 器 协议 外 ， 还 需要 有 一 个 控制 
器 -设备 协议 。RS - 232 就 是 控制 器 - 设备 协议 的 一 个 例子 。 


RS-232 协议 是 控制 器 - 设备 协议 的 一 个 例子 (见方 框 中 的 例子 )， 它 指定 了 控制 器 和 设备 间 的 连接 ， 
以 及 在 控制 器 和 设备 间 电 信和 号 的 传输 方式 。 例 如 ， 控 制 器 和 设备 使 用 协议 来 规定 控制 器 和 设备 间 数 据 流 的 
方向 。 

从 软件 的 角度 来 看 ， 关 键 的 设备 接口 是 驱动 程序 和 控制 器 间 的 接口 。 这 也 使 用 了 一 种 协议 形式 : 在 这 
种 情况 下 ， 协 议 指定 了 控制 器 寄存 器 的 格式 和 含义 。 

今天 ， 串 行 通信 控制 器 是 使 用 一 个 特定 的 微 处 理 器 来 实现 的 ， 称 为 通用 异步 收发 报 机 (UART)， 它 
带 有 板 上 的 ROM 和 RAM。 因 为 操作 已 经 标准 化 ， 支 持 RS - 232 标准 的 控制 器 和 设备 相互 作用 ，UART 
只 需要 在 驱动 程序 中 定义 少数 几 个 参数 ， 就 能 完全 说 明 控制 器 - 设备 协议 。 一 旦 UART 初始 化 (在 设备 
打开 时 )， 驱 动 程序 只 需 提供 一 个 字符 缓冲 区 、 一 个 完成 读 或 写 操作 的 命令 ， 就 可 以 完成 相应 的 1/0 操作 。 
这 些 驱动 程序 是 所 有 设备 驱动 程序 中 最 简单 的 。 

并 行 通信 端口 用 来 将 打印 机 连接 到 计算 机 ， 因 此 ,设备 可 以 是 字符 流 、 位 图 、PostSeript 或 其 他 的 计 
算 机 一 打印 机 协议 。 尽 管 连接 到 并 行 端口 的 大 多 数 设备 是 打印 机 ， 但 并 行 端口 支持 双向 的 通信 ， 可 以 被 其 
他 的 一 些 设备 使 用 。 例 如 ， 在 现代 通信 端口 如 USB 和 Firewire 出 现 之 前 ， 一 些 外 部 的 存储 设备 (如 Zip 驱 
动 器 ) 使 用 并 行 端口 进行 数据 传输 。 

串 行 和 并 行 端口 技术 在 20 世纪 70 年 代 发 展 起 来 ， 并 在 80 年 代 得 到 了 广泛 应 用 。 到 19904F, AA 
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切 需要 一 种 更 高 速 的 通信 端口 ， 利 用 它 可 以 进行 更 高 速 的 数据 交换 ， 这 时 ， 诸 如 视频 摄像 机 、 数 码 相 机 、 
外 部 的 CD-ROM 驱动 器 和 个 人 数字 助理 等 设备 出 现 了 ， 它 们 不 用 添加 新 的 控制 器 来 与 总 线 交 互 就 可 以 与 
计算 机 相连 接 。 这 些 设备 最 早 使 用 串 行 和 并 行 通信 端口 ， 尽 管 这 些 通信 端口 速度 很 慢 。USB 和 Firewire 在 
1995 年 开始 出 现在 个 人 计算 机 上 。 上 述 每 一 种 连接 都 受到 想 优化 设备 连接 的 不 同 技术 团体 的 影响 如 
流 媒体 音频 /视频 、 块 数据 传输 、PDA 同步 等 。 

MA PTR (USB) 被 开发 成 提供 一 个 外 部 端口 ， 它 相当 于 一 个 双向 的 ，1.5Mbps 一 12Mbps 的 到 总 线 
的 一 个 内 部 连接 [USB，2001]。(USB 2.0 规范 的 数据 传输 速率 可 高 达 480Mbps。) 这 要 求 在 计算 机 上 提供 一 
个 支持 USB 协议 的 外 部 插 槽 ， 只 要 将 USB 兼容 的 设备 插 进 插 槽 就 可 以 使 用 了 。USB 计算 机 端口 可 以 直接 连 
接 到 设备 上 ， 或 者 连接 到 网 络 集线器 (hub) ， 网 络 集线器 可 以 连接 多 个 设备 。 设 备 驱动 程序 和 USB 硬件 支持 
一 般 的 MO 操作， 但是， 它们 也 提供 了 对 设备 动态 热 插 拔 的 支持 ， 并 安装 相应 的 设备 驱动 程序 来 管理 设备 。 
USB 通过 USB 端口 为 设备 提供 电源 ， 这 意味 着 系统 要 负责 为 USB 端口 上 的 设备 或 集线器 供电 。 

IEEE 1394 Firewire 规范 是 USB 规范 的 一 个 替代 产品 ， 它 起 初 是 由 苹果 公司 在 1980 年 发 展 起 来 的 ， 然 后 
在 1995 年 开始 作为 IEEE 标准 (IEEE, 2000]. IEEE 1394a REE X T PITAR, TREL 100Mbps、200Mbps 
或 400Mbps 的 速率 进行 操作 ， 计 划 在 不 久 的 将 来 以 3.2Gbps 的 速率 来 为 设备 传输 数据 。 与 USB 一 样 ， 
Firewire 也 有 一 个 或 多 个 外 部 连接 端口 ， 可 以 让 用 户 将 数码 相机 或 其 他 设备 直接 连接 到 串 行 总 线 上 。 由 于 
Firewire 具有 更 高 速 的 数据 传输 速率 ， 它 更 适合 于 流 媒 体 应 用 一 一 Firewire 可 以 支持 一 个 外 部 的 DVD 设备。 

尽管 现代 的 计算 机 使 用 高 速 网 络 来 进行 外 部 通信 ， 但 品行 和 并 行 通信 端口 仍然 是 计算 机 的 重要 部 件 ， 
特别 是 台式 机 和 笔记 本 电脑 。USB 和 Firewire 对 个 人 计算 机 、 工 作 站 和 笔记 本 计算 机 而 言 也 是 十 分 重要 
的 ， 因 为 它们 支持 现代 的 高 速 设备 连接 ， 并 且 对 于 将 PDA 连接 到 这 些 计算 机 是 十 分 有 价值 的 。 大 型 机 趋 
向 于 用 网 络 ( 见 第 15 章 ) 来 替代 通信 端口 ， 尽 管 所 有 的 计算 机 都 至 少 有 一 个 串 行 通信 端口 。 











RA: 异步 串 行 设备 

异步 终端 是 面向 字符 的 设备 ， 可 以 显 式 地 发 送信 号 来 控制 每 个 字符 在 终端 与 计算 机 之 间 的 传送 。 除 了 
IBM 3270 式样 的 同步 终端 外 ， 几 乎 所 有 的 传统 终端 都 使 用 异步 技术 。 数 据 在 终端 和 计算 机 间 是 以 单字 节 
进行 传送 的 。 每 个 终端 实际 上 是 两 个 设备 ， 键 盘 输入 设备 和 显示 器 输出 设备 。 输 入 操作 将 字 节 从 设备 的 键 
盘 控制 器 传送 到 处 理 器 寄存 器 或 者 主 存 中 ， 输 出 操作 将 字符 从 寄存 器 或 主 存 位置 传 送 到 显示 设备 中 。 

RS- 232 标准 定义 了 异步 终端 (键盘 和 显示 器 ) 和 控制 器 之 间 的 接口 ， 可 以 用 来 交换 8 位 (1 字 节 ) 
的 信息 。 标 准 的 第 一 部 分 指定 了 物理 连接 的 类 型 (9 针 或 25 针 的 连接 器 )， 第 二 部 分 指定 了 每 个 插 针 的 信 
号 的 含义 (在 RS- 232 接口 上 仅 使 用 了 4 线 )。 

控制 器 通过 在 线 上 以 指定 的 时 间 间 隔 输 出 一 系列 的 电信 号 来 完成 输出 操作 ， 设 备 根据 电信 和 号 做 出 反应 
并 构建 好 相应 的 字 节 。 字 节 可 以 是 到 显示 器 的 一 个 控制 字 节 (例如 ， 反 转 视频 颜色 ， 即 黑 变 成 白 或 白 变 成 
R) 或 一 个 显示 字 节 。 被 显示 器 识别 的 控制 字 节 是 与 设备 相关 的 ， 各 种 终端 的 控制 字 节 都 是 不 相同 的 。 
(UNIX termeap/terminfo 数据 库 用 来 标准 化 和 抽象 这 些 控制 功能 。) 串 行 终端 设备 和 控制 器 可 以 以 每 秒 
110 到 57 600 个 信号 的 速度 来 进行 信息 交换 。 交 换 的 速率 称 为 终端 的 波 特 率 (baud rate)。 在 RS- 232 标准 
中 ， 每 传输 8 位 的 字 节 就 要 传送 11 个 信号 ， 其 中 3 个 信和 号 是 用 来 同步 设备 和 控制 器 的 操作 的 。 

异步 串 行 设备 控制 器 一 般 在 单个 芯片 上 (UART) 实现 ， 芯 片 具有 小 型 微 处 理 器 的 计算 能 力 。 这 块 芯片 
能 以 不 同 的 波 特 率 来 为 设备 提供 信号 ， 它 还 具有 奇偶 校 验 选 项 、 不 同 的 开销 位 的 数目 (2 个 或 3 个 ， 依 赖 于 
具体 的 设备 ) 等 。 芯 片 具 有 存储 在 设备 相关 ROM 中 的 程序 所 指定 的 大 多 数 具体 操作 。 然 而 ， 软 件 必须 选择 
合适 的 参数 来 指定 想 要 的 操作 ， 使 芯片 执行 /JO。 这 个 选择 可 由 应 用 软件 或 设备 驱动 程序 来 直接 指定 。 芯 片 
的 成 本 还 不 到 1 美元 ， 它 必须 整合 到 拥有 其 他 逻辑 的 控制 板 上 。 因 此 ， 趾 行 控制 器 的 成 本 不 到 50 美元 。 

几乎 每 个 计算 机 都 配置 了 一 个 或 更 多 的 串 行 设备 控制 器 。 系 统 控制 台 常 常 经 由 串 行 设备 控制 器 连接 到 
机 器 上 ， 串 行 设备 的 软件 和 硬件 行为 是 由 小 的 微 处 理 器 和 控制 器 寄存 器 来 定义 的 。 当 这 样 的 设备 增加 到 系 
统 中 时 ， 通 过 传递 命令 到 控制 器 来 选择 想 要 的 参数 (如 传输 速度 和 启动 /停止 位 )， 由 软件 来 初始 化 设备 ， 
这 样 设备 就 可 以 使 用 了 。 在 控制 器 初始 化 以 后 ， 可 以 使 用 读 写 命令 来 传输 、 接 收 信息 。 
E 
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5.5.2 顺序 访问 存储 设备 


在 计算 机 系统 中 ， 存 储 设 备 〈 又 称 外 存 或 辅 存 ) 实现 持久 性 (persistent) 存储 ， 这 意味 着 放 在 存储 设 
备 中 的 信息 在 关机 后 仍 被 保存 ， 并 且 在 开机 后 又 可 以 找 回 。 存 储 设 备 或 者 是 可 以 顺序 访问 的 设备 ， 或 者 是 
可 以 随机 访问 的 设备 。 这 两 种 类 型 的 存储 设备 都 是 面向 块 的 ， 即 数据 从 设备 读 取 ， 或 者 写 人 设备 时 ， 是 以 
许多 字 节 组 成 的 块 为 单位 进行 的 ， 块 的 大 小 取决 于 设备 的 特征 和 设备 的 控制 器 。 

无 论 是 顺序 访问 还 是 随机 访问 ， 存 储 设备 在 物理 上 都 以 线性 顺序 将 数据 块 存储 到 一 个 记录 媒体 上 ， 而 
块 内 的 字 节 可 以 是 线性 存储 的 ， 也 可 以 不 是 。 设备 提 供 读 写 接口 ， 程 序 员 无 需 确切 地 知道 位 和 字 节 在 一 个 
块 内 是 如 何 物 理 存 放 的 。 读 操作 从 设备 中 读 取 一 个 块 的 字 节 ， 而 写 操 作 会 拷贝 一 个 块 的 字 节 到 设备 中 。 

历史 上 ， 顺 序 访问 的 存储 设备 曾 比 随机 访问 存储 设备 划算 得 多 。 直 到 20 世纪 60 年 代 ， 计 算 机 还 大 量 
使 用 穿孔 纸 带 来 作为 外 部 存储 媒体 。 一 个 类 似 于 打字 机 的 设备 一 一 电 传 打字 机 一 一 既 可 以 作为 计算 机 的 联 
机 终端 ， 也 可 以 作为 离线 机 器 来 存储 键 击 ， 这 是 通过 在 连续 的 纸 带 流 ( 称 为 带 ) 上 编码 实现 的 。 程 序 员 可 
以 将 程序 通过 电 传 打字 机 输入 到 纸 带 上， 然后 将 电 传 打字 机 作为 终端 连接 到 计算 机 并 以 高 速率 来 播放 纸 
带 一 一 估计 每 秒 10 个 字 节 。 到 70 年 代 时 ， 纸 带 被 7 道 和 9 道 的 磁带 取代 了 (见方 框 中 的 例子 )。 今 天 ， 
DAT 被 广泛 用 来 为 存储 在 磁盘 上 的 信息 存档 。 到 2003 年 ，DAT 的 容量 达到 了 40GB。DAT 非常 适合 于 存 
档 ， 因 为 它 的 容量 比较 大 而 且 价 格 相 对 来 说 比较 便宜 ， 然 而 ， 读 写 数据 块 是 非常 慢 的 ， 将 数据 从 DAT 恢 
复 到 硬盘 可 能 需要 几 个 小 时 。 


u 





示例 : 传统 磁带 

磁带 是 现在 的 系统 中 主要 的 顺序 存储 媒体 。 传 统 的 磁带 是 0.5 英寸 宽 、 涂 有 铁 氧 体 的 塑料 带 ， 尽 管 现 
在 流行 更 小 的 合式 磁带 。 与 DAT 一 样 ， 信 息 通过 磁带 表面 有 磁性 的 区 域 存 储 。 磁 带 可 以 有 任意 长 度 ， 一 
般 的 长 度 范围 在 600 到 2 400 英尺 之 间 ; 而 在 特殊 的 应 用 中 可 能 很 短 ， 如 信用 卡 背面 的 磁带 只 有 3 英寸 长 。 

传统 的 0.5 英寸 宽 的 磁带 被 格式 化 成 9 个 逻辑 磁道 ， 每 个 磁道 都 有 整个 磁带 的 长 度 。 当 磁带 放置 在 读 
写 头 下 面 时 ， 读 写 头 能 够 察觉 到 一 个 段 一 一 一 个 8 位 的 字 节 并 带 有 一 个 奇偶 校 验 位 一 一 跨越 在 9 个 磁道 之 
间 (奇偶 校 验 位 是 其 他 8 位 之 和 通过 模 2 得 到 的 。 它 是 一 个 简单 的 方法 ， 用 于 检测 一 个 位 是 否 被 错误 地 读 
或 写 )。 一 组 字 节 被 密集 存放 在 磁带 上 ， 形 成 一 个 物理 记录 (physical record) ， 它 包含 着 一 个 块 的 数据 ， 物 
理 记 录 通 过 记录 间隙 分 离开 来 。 当 驱动 程序 发 出 一 个 I/O 操作 时 ， 磁 带 驱动 器 必须 能 够 让 磁带 加 速 并 让 磁 
带 经 过 读 写 头 ， 因 而 读 写 头 能 够 读 写 磁道 。 在 每 个 字 节 间 放 置 记录 间隙 是 不 实际 的 ， 因 此 必须 以 块 为 单位 
进行 操作 。 磁 带 上 的 字 节 密 度 是 由 读 写 机 制 决 定 的 物理 特征 ， 密 度 涉及 到 在 一 段 固定 长 度 的 磁带 上 能 够 放 
置 的 字 节 数目 。 例 如 ， 密 度 为 6 250-bpi 的 磁带 ， 在 每 英寸 磁带 上 可 以 存储 6 250 个 字 节 。 现 在 的 DAT 有 
更 高 的 密度 ， 但 是 比 这 些 传统 磁带 设备 更 慢 一 些 。 

存储 在 磁带 上 的 信息 ， 必 须 通过 向 前 或 向 后 移动 磁带 使 信息 经 过 读 写 头 来 进行 物理 访问 。 因 而 ， 如 果 
进行 读 操作 的 进程 ， 准 备 按照 信息 在 磁带 上 的 存储 顺序 读 取 所 有 的 信息 ， 数 据 的 访问 只 能 以 一 个 合理 的 速 
率 进行 。 在 这 种 操作 中 ， 定 位 磁带 设备 中 的 磁带 将 会 带 来 很 大 的 延迟 (以 秒 或 分 计 )。 因 而 它 限制 了 磁带 
在 除 顺序 访问 以 外 的 几乎 任何 其 他 方式 中 的 应 用 。 | 

今天 的 很 多 盒 式 磁带 驱动 器 中 都 有 一 个 查找 的 机 制 ， 其 中 为 每 个 物理 记录 分 配 一 个 索引 ， 比 起 原来 磁 
带 驱 动 器 需 读 取 磁 带 上 的 每 个 物理 记录 来 ， 带 索引 的 寻找 操作 能 够 更 快速 地 完成 。 当 然 ， 与 随机 访问 设备 
相 比 ， 这 种 驱动 器 的 访问 速度 可 能 还 是 相对 要 慢 一 些 。 








5.5.3 随机 访问 存储 设备 


随机 访问 存储 设备 允许 驱动 器 按 任 意 的 次 序 访 问 设 备 上 的 块 信息 。 对 于 这 种 访问 方式 ， 在 访问 存储 在 
介质 表面 的 不 同 物理 位 置 的 信息 块 时 ， 会 有 小 的 、 可 测量 的 性 能 损失 。 旋 转 磁 盘 是 最 主要 的 随机 访问 存储 
设备 ， 这 些 磁盘 在 控制 器 与 设备 之 间 使 用 块 读 写 接口 ， 并 且 把 面向 块 的 方式 扩展 到 了 驱动 程序 与 控制 器 的 
接口 中 。 然 而 ， 磁 盘 一 般 不 直接 支持 顺序 访问 ， 因 为 设备 上 邻近 的 块 并 不 一 定 保存 了 逻辑 上 相 邻 的 块 信 
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息 ， 因 此 必须 由 准备 访问 随机 存储 设备 信息 的 软件 ， 确 定 读 写 设备 中 块 的 次 序 。 文 件 抽象 很 适合 于 这 种 假 
We, 文件 管理 器 (在 第 13 章 讨论 ) 实现 了 一 种 策略 ， 用 于 将 逻辑 上 相 邻 的 信息 (一 个 字 节 流 ) 存储 在 随 
机 设备 的 不 相 邻 的 物理 块 中 。 





示例 : 磁盘 

磁盘 由 一 个 或 多 个 物理 磁盘 片 组 成 ， 每 个 磁盘 片 有 一 个 或 两 个 存储 面 〈surface) ( 见 图 $-18a) 。 每 个 面 
逻辑 上 划分 成 几 个 扇 区 (sectors)， 扇 区 定义 为 磁盘 圆周 中 一 个 角度 的 部 分 ， 像 馅 饼 的 切片 。 每 个 磁盘 面 也 
被 组 织 成 几 个 穿 过 每 个 扇 区 的 同心 环 ， 这 种 环 称 为 磁道 (track)， 图 5-18b 显示 了 一 个 磁道 穿 过 了 8 个 扇 
区 。 如 果 一 个 磁盘 面 上 有 500 个 磁道 和 32 个 扇 区 ， 那 么 每 个 肩 区 包含 500 个 磁道 中 每 个 的 1/32。 磁 盘 片 
组 围绕 着 相同 的 轴 旋 转 (图 5-18a 的 垂 线 ) 并 经 过 一 组 读 写 头 。 如 果 要 读 写 磁 盘 中 的 信息 ， 存 放 信息 的 磁 
盘 磁 道 必须 要 对 齐 读 写 头 ， 然 后 等 待 目标 扇 区 旋转 到 读 写 头 下 面 。 当 磁头 感觉 到 了 扇 区 的 开始 时 ， 在 盘 片 
沿 着 磁头 旋转 时 ， 磁 头 会 读 取 相应 磁道 下 的 字 节 流 。 因 此 ， 由 磁盘 设备 读 取 的 信息 块 事实 上 是 作为 字 节 流 
沿 着 磁道 存储 在 磁盘 表面 的 。 在 非 正式 用 法 中 ， 一 个 扇 区 内 的 磁道 分 段 叫做 一 个 数据 块 ， 常 常 称 为 磁盘 剧 
区 ， 尽 管 技 术 上 一 个 扇 区 经 过 所 有 磁道 。 ` 


磁道 ( 柱 面 ) (一 est) 
3 Nar 


a) 多 面 磁盘 b) 磁盘 面 c) 柱 面 


图 5-18 旋转 媒体 
注 : 尽管 软盘 和 光盘 也 是 随机 访问 存储 设备 ， 但 硬盘 是 最 出 名 的 随机 访问 存储 设备 。 在 a) 图 中 ,我们 知道 硬盘 
有 多 个 面 。 在 b) 图 中 展示 了 每 个 磁盘 表面 的 逻辑 组 织 。c) 图 描述 了 与 所 有 磁盘 表面 中 心 轴 臣 离 相 同 的 磁 
道 。 因 为 读 写 头 组 是 作为 一 个 单元 来 移动 的 ， 在 同一 柱 面 的 信息 不 用 移动 磁头 就 可 以 直接 进行 访问 。 


因为 工程 经 济 上 的 原因 ， 读 写 头 组 被 绑 定 在 一 个 单 璧 上， 可 以 通过 单 臂 运动 来 定位 到 一 个 特定 的 磁 “ 
道 。 这 减少 了 设备 的 成 本 ， 因 为 仅 用 一 个 引擎 来 移动 读 / 写 头 就 可 以 了 (而 不 是 让 每 个 读 写 头 都 有 引擎 )。 
这 种 方法 意味 着 ， 每 个 磁盘 面 的 读 写 头 同时 定位 在 距 所 有 面 中 心 轴 相同 距离 的 磁道 上 。 不 同 面 的 磁道 集合 
称 为 磁盘 的 柱 面 (cylinder)。 

一 个 物理 磁盘 记录 ， 存 储 在 旋转 媒体 的 一 个 面 上 的 一 个 扇 区 内 的 一 个 磁道 上 ， 磁 盘 上 存储 的 物理 记录 
GR) 数目 ,是 由 磁道 数 、 扇 区 数 以 及 面 数 所 决定 的 。 例 如 ，Maxtor 的 52049U4 或 者 Seagate 的 
-ST310212A 磁盘 有 10GB 的 容量 ， 存 储 在 16 个 盘面 上 GER LA 8 个 两 面 可 存储 的 盘 片 )， 每 个 面 有 63 个 
扇 区 ， 有 16 383 个 磁道 ( 柱 面 )。 

读 写 头 定 位 到 距 旋 转 磁盘 中 心 轴 一 一 定 放射 距离 的 磁道 上 ， 是 为 了 在 特定 的 磁道 上 读 取 信息 。 穿 越 磁道 
的 磁头 移动 是 所 有 操作 中 最 消耗 时 间 的 操作 。 设 计 物 理 机 制 使 具有 读 写 头 组 的 移动 臂 高 速 地 精确 越过 一 定 
量 的 磁道 是 很 困难 的 ， 这 种 寻 道 时 间 占 了 整个 访问 时 间 的 绝 大 部 分 。 便 宜 的 磁盘 驱动 器 使 用 了 一 种 一 次 移 
动 一 个 磁道 的 机 制 ， 如 果 驱 动 器 刚 从 20 磁道 中 读 取 一 个 块 ， 并 且 下 一 个 块 需要 从 50 磁道 中 读 取 ， 那 么 必 
须 移动 30 次 读 写 头 ， 一 次 穿 过 一 个 磁道 。 价 格 高 一 些 的 磁 胡 驱 动 器 能 够 将 读 写 头 直接 从 20 磁道 移动 到 50 
磁道 ， 这 种 方法 比 单 道 移动 机 制 快 得 多 ， 尽 管 磁 盘 块 访问 时 间 仍然 主要 是 穿 过 磁道 的 时 间 。 

当 读 写 头 已 经 定位 在 适当 的 磁道 上 (或 者 在 多 面 磁盘 的 适当 柱 面 上 ) 时 ， 通 常 在 能 够 访问 信息 之 前 ， 
还 要 等 待 正确 的 扇 区 旋转 到 读 写 头 下 ， 这 个 延迟 称 为 磁盘 等 待 时 间 (disk latency time) ， 这 取决 于 磁盘 旋 
转 的 速率 。 在 不 同 的 磁盘 类 型 中 ， 旋 转速 率 至 少 差 一 个 数量 级 ， 如 软盘 旋转 速度 为 3600rpm， 而 固定 硬盘 
为 15 000rpm， 或 者 有 更 高 的 速率 。 
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多 面 磁盘 可 以 设计 成 如 下 结构 ， 控 制 器 提供 一 个 接口 ， 使 存储 在 一 个 柱 面 内 的 数据 呈现 为 一 个 磁道 的 
多 个 鹿 区 。 假 设 一 个 磁盘 有 S 个 面 和 R 个 扇 区 ， 磁 盘 能 够 提供 一 个 接口 ， 映 射 * (0 委 *< S) Br (OS 
r<R) 扇 区 中 的 块 ， 表 示 为 (*,，r) ， 到 逻辑 扇 区 1 (0 委 : 上 < RS)。 也 就 是 说 , 在 (0 , 0) 上 的 块 对 应 于 你 
辑 块 0， 在 (0 1) 上 的 块 对 应 于 逻辑 块 1…… 在 (0, R-1) 上 的 块 对 应 于 逻辑 块 尺 -~1, Æ (1 , 0) 
上 的 块 对 应 于 逻辑 块 R， 等 等 。 这 样 驱 动 程序 (或 文件 系统 ) 一 旦 找到 给 定 的 柱 面 ， 就 能 够 访问 柱 面 上 
RS 个 块 中 的 任 一 个 ， 而 没有 寻 道 延迟 。 

根据 控制 器 的 设计 ， 在 不 同 盘面 的 扁 区 也 可 以 映射 成 逻辑 上 相 邻 的 扇 区 ， 即 逻辑 上 相 邻 的 扇 区 可 以 在 
不 同 的 面 上 ， 而 不 是 物理 上 相互 邻接 的 扁 区 。 例 如 ， 逻 辑 扇 区 0 可 能 在 (0, 0) 处 ， 而 逻辑 扇 区 1 可 能 在 
(1,1) 处 ， 等 等 。 

旋转 设备 的 设计 还 在 进一步 改善 。 磁 盘 技 术 的 发 展 使 磁盘 的 物理 结构 小 型 化 ， 同 时 减少 了 寻 道 时 间 ， 
并 增加 了 从 磁盘 面 到 机 器 主 存 的 数据 传送 速率 。 平 均 磁 盘 寻 道 时 间 取 决 于 磁道 的 数目 和 读 写 头 的 移动 时 
间 ， 当 代 磁 盘 的 平均 寻 道 时 间 在 5 到 25 毫秒 之 间 。 数 据 传送 速率 取决 于 一 个 扇 区 内 的 位 存储 密度 以 及 磁 
盘 的 旋转 速率 ， 就 在 撰写 本 书 的 时 候 ， 这 个 速率 能 够 期 望 达到 1Mbps 到 SMbps 之 间 。 

es | 
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示例 : 磁盘 访问 优化 
在 一 个 多 道 程 序 设计 系统 中 ， 很 多 不 同 的 进程 可 能 同时 试图 访问 磁盘 ， 从 而 在 任 一 时 刻 磁 盘 驱 动 程序 
可 能 会 有 多 个 需要 它 服务 的 请 求 。 通 常情 况 下 ， 连 续 到 达 驱 动 程序 的 请 求 会 访问 物理 上 不 相 邻 的 磁盘 块 ， 
结果 为 了 完成 服务 请 求 ， 磁 盘 设 备 要 花费 相当 多 的 时 间 寻 找 不 同 的 磁道 。 . 
例如 ， 假 定 一 个 磁盘 请 求 队列 收 到 6 个 块 服务 请 求 ， 按 到 达 的 次 序 排列 ， 分 别 在 12, 123, 50, 13, 124 
和 49 磁道 上 。 一 种 方法 是 ， 按 接收 顺序 进行 服务 ， 首 先 找到 12 磁道 ， 然 后 找到 123 磁道 ， 依 次 进行 下 
去 。 假 定 磁盘 能 够 在 X 毫秒 内 找到 一 个 邻近 的 磁道 ， 但 要 找到 相隔 Y 的 磁道 ， 则 需要 X+ YK 毫秒 。 若 
系数 天 取 3， 那 么 磁盘 从 12 到 13 磁道 需要 X+3 毫秒 ， 而 从 123 到 12 磁道 需要 X+ 333 毫秒 。 则 按 请 求 
顺序 完成 上 例 中 的 磁盘 请 求 队列 服务 ， 驱 动 器 将 会 花费 如 下 的 时 间 在 寻 道 上 ， 
(X+3x (123-12)) + (X+3x (123-50)) + (X+3x (50-13)) 
+ (X+3x (124-13)) + (X+3x (124-49)) = (5X+921) 毫秒 
由 于 寻 道 时 间 占 1/O 时 间 的 大 部 分 ， 如 果 磁 盘 服务 按照 12，13,， 49, 50, 123, 124 磁道 的 顺序 进行 ， 
完成 所 有 服务 就 会 比 以 前 快 得 多 ， 所 用 的 寻 道 时 间 会 减少 为 : 
(X+3) + (X+3x (49-13)) + (X+3) + (X+3x (123-50)) + (X+3) 
= (X+3) + (X+3x108) + (X+3) + (X+3x73) + (X+3) 
即 (5X +327) SF, 
很 明显 ， 节 省 的 时 间 取 决 于 磁盘 的 寻 道 机 制 特性 以 及 待 处 理 请 求 的 次 序 。 一 些 磁 盘 有 很 复杂 的 寻 道 机 
制 ， 允 许 它 们 去 寻找 一 个 磁道 而 不 在 中 间 的 磁道 停顿 。 然 而 ， 这 些 驱动 器 也 会 有 开始 一 次 寻 道 所 用 的 固定 
时 间 (X 因子 )， 以 及 移动 适当 磁道 数 所 用 的 时 间 ( YK 因子 )。 优 化 请 求 服务 的 次 序 ， 对 节省 作为 访问 时 
间 一 部 分 的 磁盘 寻 道 时 间 而 言 有 着 本 质 的 影响 。 
另 一 种 快速 请 求 处理 方 法 是 根据 “扫描 ”算法 生成 的 ， 驱 动 程序 做 横 穿 磁盘 的 扫描 ， 下 一 个 要 处 理 的 
请 求 必须 涉及 比 磁头 所 在 磁道 更 大 磁道 号 的 位 置 。 实 际 上 ， 当 驱动 程序 在 满足 -- 组 请 求 服务 时 ， 又 会 有 更 ， 
多 的 请 求 到 达 队列 ， 因 而 这 种 方法 会 造成 一 些 请 求 等 待 相对 较 长 的 时 间 。 假 设 当 驱 动 程序 刚刚 完成 50 BE 
道上 的 块 访问 ， 一 个 45 磁道 上 的 请 求 到 了 ， 那 么 算法 是 继续 向 前 扫描 磁道 ， 还 是 应 该 回 到 45 磁道 服务 请 
RYE? 在 20 世纪 70 年 代 ， 人 们 对 磁盘 寻 道 算法 进行 了 深入 地 研究 ， 但 此 后 就 没有 什么 新 的 发 现 。 下 面 是 
几 种 从 研究 中 发 展 起 来 的 最 重要 的 策略 ， 一 些 已 经 直接 在 磁盘 控制 器 硬件 中 实现 ， 而 不 是 在 驱动 程序 中 由 软 
件 实现 。 
FCFS 调度 (First-Come-First-Served) 
在 FCFS 调度 算法 中 ， 对 请 求 的 服务 是 按照 到 达 驱 动 程序 的 次 序 进 行 的 。 这 是 一 种 最 基本 的 方法 ， 它 
没有 减少 整个 寻 道 时 间 。 假 设 磁 盘 请 求 队列 中 包含 了 一 组 访问 块 ， 所 在 磁道 分 别 为 ，76. 124, 17, 269, 
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201, 29, 137, 12。FCFS 将 会 从 76 磁道 开始 服务 ， 然 后 移动 并 越过 48 个 磁道 到 124， 与 图 5-19 中 所 描述 
的 一 样 进行 服务 。 当 完成 所 有 的 服务 ， 读 写 头 会 总 共 越 过 880 个 磁道 。 

SSTF 调度 (Shortest-Seek-Time-First) 

在 SSTF 调度 算法 中 ， 驱 动 程序 会 选择 从 当前 位 置 开 始 最 小 寻 道 时 间 的 请 求 作为 下 一 个 服务 的 对 象 。 
因而 在 进行 局 部 优化 的 过 程 中 ， 会 使 一 些 请 求 得 不 到 及 时 的 服务 。 特 别 是 在 重负 载 的 情况 下 ，SSTF 调度 
不 会 对 一 些 远 距 离 的 请 求 进行 服务 ， 这 种 现象 称 为 馈 死 (starvation)。 当 驱动 器 负载 减轻 时 ， 最 后 不 得 不 
去 服务 那些 请 求 ， 因 此 要 将 读 写 头 移动 到 磁盘 的 某 个 新 地 方 ， 结 果 是 同样 要 付出 很 大 的 性 能 开销 。 

与 FCFS 相 比 ， 使 用 SSTF 调度 算法 完成 上 面 例子 中 的 服务 ， 读 写 头 的 移动 次 序 为 : 76, 29, 17, 12, 
124, 137, 201, 269， 总 共 要 越过 331 个 磁道 ， 如 图 5-20 所 示 。 












































200 400 600 800 1000 步 100 200 300 400 

图 5-19 FCFS 磁盘 调度 图 5-20 STF 磁盘 调度 
注 : FCFS 算法 按 序 处 理 请 求 ， 这 是 一 种 简单 的 方 注 : SSTF 算法 检查 所 有 未 服务 的 请 求 ， 然 后 选择 一 个 从 
法 ， 但 是 性 能 不 太 好 。 当前 读 写 头 位 置 移动 距离 最 少 的 请 求 。 这 个 算法 执 


行 起 来 很 好 ,但 不 是 最 优 的 ， 有 可 能 发 生 饿 死 情 形 。 

Scan/Look 调度 

Scan 调度 算法 将 读 写 头 从 0 磁道 开始 ， 向 最 大 号 磁道 方向 移动 ， 服 务 所 有 经 过 的 磁道 上 的 请 求 。 当 到 
达 最 大 号 磁道 后 ， 它 反 转 方向 进行 扫描 直到 0 磁道 ， 同 样 服务 所 有 经 过 的 磁道 上 新 到 达 的 请 求 。Look 是 
一 种 变种 的 Scan 调度 算法 ， 当 请 求 中 涉及 最 大 号 磁道 的 服务 结束 后 ， 它 停止 继续 向 最 大 号 磁道 方向 移动 ， 
反 转 方向 扫描 。 例 如 ， 如 果 磁 道 最 大 号 为 299， 但 是 请 求 中 的 最 大 号 是 269，Look 服务 完 269 磁道 上 的 请 
求 后 就 会 反 转 扫描 方向 ， 向 0 磁道 的 方向 移动 ， 而 Scan 会 一 直 扫描 到 299 磁道 才 反 转 方向 。 

继续 使 用 前 面 的 例子 ， 假 定 读 写 头 当前 在 76 磁道 上 ， 并 朝 最 大 号 方向 移动 。 那 么 Scan 和 Look 移动 的 
WHA: 76, 124, 137, 201, 269, 29, 17, 12. Look 将 越过 450 个 磁道 ， 而 Scan 将 多 经 过 60 个 磁道 ， 如 
图 5-21 所 示 。Scan 和 Look 都 能 保证 在 一 个 来 回 内 服务 所 有 的 请 求 ， 因 而 不 会 出 现 饿 死 现 象 。 

Circular Scan/Look 调度 

在 Scan 和 Look 调度 中 ， 在 向 大 号 磁道 方向 或 者 向 小 号 磁道 方向 的 移动 过 程 中 ， 不 断 会 有 新 的 请 求 到 
达 。 例 如 ， 假 定 Scan 调度 向 大 号 磁道 方向 移动 时 正在 服务 15 磁道 上 的 请 求 ， 而 此 时 来 了 一 个 13 磁道 上 的 
请 求 服务 ， 那 么 新 的 请 求 在 将 近 两 次 扫描 磁盘 的 时 间 内 (从 15 磁道 到 最 大 号 ， 以 及 返回 到 13 磁道 期 间 ) 
得 不 到 服务 。Circular Scan 则 总 是 朝 一 个 方向 扫描 磁盘 ， 例 如 ， 向 大 号 磁道 方向 。 如 果 15 磁道 上 的 服务 结 
HUG, 13 磁道 上 的 请 求 才 到 达 ， 那么 请 求 至 多 等 待 单 次 扫描 磁盘 的 时 间 。Circular Look 与 Circular Scan 的 
差别 和 Look 与 Scan 的 差别 是 一 样 的 ， Circular Look 和 Circular Scan 都 依靠 一 个 特殊 的 复位 命令 ， 在 一 个 短 
的 时 间 内 将 读 写 头 迅速 移动 到 0 磁道 ， 并 重新 开始 向 大 号 磁道 方向 移动 。 使 用 便宜 的 步 进 电机 的 磁盘 驱动 
器 〈 如 软盘 驱动 器 ) ， 就 没有 快速 复位 到 0 磁道 的 能 力 。 

还 是 使 用 前 面 的 例子 ， 假 定 当前 读 写 头 在 76 磁道 上 ， 并 向 大 号 磁道 方向 移动 。 那 么 使 用 Circular Look 
和 Circular Scan 调度 ， 移 动 的 次 序 为 : 76, 124, 137, 201, 269, 12, 17, 29， 如 图 5-22 所 未 。 在 这 个 例子 
中 ,假设 驱动 器 从 269 或 299 磁道 回 到 0 磁道 ， 相 当 于 移动 了 100 步 ， 在 没有 复位 命令 的 磁盘 设备 中 确实 
是 这 样 的 。 
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---- Circular Scan 
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100 200 300 400 500 100 400 500 
图 5-21 Scan 和 Look 磁盘 调度 5-22 Circular Scan 和 Look 磁盘 调度 
TE: Scan 算法 将 磁头 从 磁道 0 移 到 最 大 数目 的 磁 TE: 对 于 Circular Scan 和 Look 磁盘 调度 来 说 ， 磁 头 从 
道 ， 遇 到 对 磁道 有 请 求 就 进行 服务 。Look 算 一 端 移 到 另 一 端 ， 到 达 请 求 涉及 的 磁道 就 进行 服 
法 在 发 现 当前 磁道 前 面 没有 待 服务 的 请 求 时 ， 务 ， 然 而 ， 当 磁头 到 达 另 一 端 时 ， 就 立即 返回 磁 
它 就 停止 扫描 (上 或 下 )。 盘 的 开始 磁道 ， 返 回 过 程 中 不 进行 服务 ， 在 这 种 


技术 中 ， 扫 描 总 是 朝 一 个 方向 进行 的 。 








示例 ; CD-ROM 和 DVD 

在 20 世纪 80 年 代 早 期 ， 紧 姿 盘 (compact disks) (简称 为 CD) 起 初 是 设计 用 来 存放 音频 信息 的 ， 它 
们 的 市 场 目标 是 取代 类 似 的 乙烯 基 唱 片 ， 用 一 种 更 耐用 的 、 高 质量 的 数字 媒体 来 录制 音乐 并 进行 音乐 发 布 
(看 起 来 它们 成 功 了 )。CD 使 用 了 索尼 和 Philip 在 激光 影音 片上 发 展 的 一 种 技术 ， 它 可 以 在 1.2mm 厚 、 半 
径 为 12cm 的 盘 片上 记录 二 进 制 信息 。 信 息 是 以 如 下 方式 被 记录 的 : 通过 将 CD 表面 的 某 个 特定 区 域 凹 陷 
来 表示 0 或 1。 每 个 四 陷 是 很 小 的 ，0.5 微米 宽 ， 长 为 0.8 一 3 微米 ， 深 为 0.15 BOK (1 微米 为 百 万 分 之 一 
米 )。CD 上 的 记录 区 域 组 织 成 螺旋 状 物 ， 从 CD 的 中 心 盘旋 到 CD 的 边缘 。 螺 旋 形 的 长 度 大 约 为 5800 米 。 
这 使 得 CD 可 以 存储 足够 的 数字 信息 ， 它 可 以 记录 大 约 75 分 钟 的 数字 编码 音频 信息 。 

一 旦 CD 母 盘 通 过 四 陷 表 面 被 创建 出 来 ， 就 可 以 很 容易 地 对 CD 进行 复制 和 分 发 ， 而 且 价 格 极为 低廉 。 
CD 播放 器 能 通过 引导 激光 束 对 相应 数据 位 置 进行 扫描 来 确定 存储 的 是 0 还 是 1， 从 而 识别 出 盘 片 上 的 数 
据 。 对 于 原来 的 音频 应 用 ，CD 播放 器 以 一 个 恒定 的 速率 将 信息 位 发 送 给 放大 器 。 在 乙烯 基 唱 片 或 磁盘 上 ， 
盘 片 表面 以 一 个 恒定 的 角速度 (CAV) 旋转 。 例 如 ， 乙 烯 基 唱 片 以 33rpm 的 速度 旋转 ， 磁 盘 以 〈5400 一 
7200) rpm 的 速度 旋转 。 在 CAV 设备 上 ， 盘 外 边缘 上 记录 信息 的 密度 要 比 盘 内 边缘 低 很 多 。CD 标准 使 用 
了 另 一 种 方法 ， 在 螺旋 状 的 轨道 上 存储 的 信息 是 以 恒定 的 密度 存放 的 ， 播 放 器 以 恒定 的 线 速度 沿 着 螺旋 轨 
道 运 动 。 当 它 在 盘 的 内 图 进行 读 写 时 ， 它 的 旋转 速度 相对 来 说 要 快 一 些 , 但 是 当 它 在 盘 的 外 图 进行 读 写 
时 ， 它 的 旋转 速度 相对 来 说 要 慢 一 些 。 | 

ISO “红皮书 ”(Red Book) 中 说 明了 CD 布局 的 细节 (ISO 标准 号 IS 10149， 可 在 http: //ww. iso. ch/iso/ 
en/ISOOnline. frontpage 上 找到 )。 到 20 世纪 80 年 代 中 期 ， 人 们 意识 到 这 些 基 本 的 CD 技术 可 以 用 来 发 布 数 
据 。ISO“ 黄 皮 书 ”规范 更 新 了 红皮书 规范 ， 它 指定 了 图 形 数 据 如 何 和 音频 数据 在 一 起 表示 一 一 新 的 记录 
媒体 称 之 为 CD-ROM (Compact Disk - Read Only Memory), 以 用 来 区 别 只 记录 音频 数据 的 CD。 黄 皮 书 着 
重 于 底层 的 记录 格式 ， 包 括 错误 检测 和 错误 纠正 格式 。 规 范 的 细节 不 在 本 书 讨论 的 范围 内 ， 但 它 有 很 重要 
的 意义 ， 它 使 随机 访问 存储 在 螺旋 磁道 上 的 数据 块 变 得 极为 容易 。 对 于 CD-ROM, 数据 是 以 块 来 存储 的 。 
驱动 程序 将 块 的 地 址 转化 为 大 约 的 盘 半 径 ， 然 后 在 此 半径 磁道 上 搜索 目标 块 。 这 使 得 对 CD-ROM evel 
就 像 对 一 个 可 变 (高 ) 延迟 的 磁盘 的 读 写 。 后 来 ， 对 CDi (Compact Disk-Interactive) 设备 ， 又 出 现 了 “ 绿 
皮 书 ”规范 ， 它 是 “黄皮书 ”的 更 新 版 本 。CD-i 意 在 支持 所 有 的 多 媒体 数据 ， 它 适合 音频 、 视频 和 通用 的 
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数据 。 例 如 ， 扇 区 头 包含 了 一 个 类 型 域 ， 描 述 了 扇 区 的 内 容 。 

黄皮书 和 绿 皮 书 规范 受 娱乐 产业 〈 音 频 和 视频 内 容 的 发 布 ) 的 驱动 ， 随 后 人 们 开始 意识 到 可 以 将 这 种 
技术 用 到 纯 数据 发 布 (及 为 了 步 人 音频 /视频 领域 ) 上 。High Sierra 小 组 ， 一 个 计算 机 制造 商 的 联盟 ， 重 
新 定义 了 CD-ROM 的 操作 ， 使 得 它 可 以 包含 一 个 可 由 文件 管理 器 解释 的 目录 结构 。 最 后 ，High Sierra 规范 
变 成 了 ISO 标准 (ISO 9660) ， 并 在 今天 得 到 了 广泛 的 使 用 。High Sierra 规范 导致 的 结果 是 : CD-ROM 既 
可 以 挂 接 到 苹果 机 上 ， 也 可 以 挂 接 在 MS-DOS 个 人 计算 机 上 ， 用 户 可 以 对 其 中 的 内 容 进行 读 取 和 播放 ， 这 
对 计算 机 用 户 来 说 是 一 件 非常 好 的 事 。 今 天 ， 大 部 分 软件 的 发 布 都 利用 了 CD-ROM 这 种 媒体 。 

CD-ROM 技术 起 源 于 每 秒 可 以 发 送 75 MAKARA CLV 驱动 器 。 黄 皮 书 定义 了 两 种 扇 区 类 型 : 模 
式 1 和 模式 2。 模 式 1 中 的 一 个 扇 区 可 以 容纳 2048 字 节 的 内 容 ， 是 用 来 存储 数据 的 〈 被 设计 成 可 用 来 进行 
错误 检测 和 纠正 )。 模 式 2 的 扁 区 可 以 有 一 个 更 大 的 容量 (消除 了 错误 检测 和 纠正 域 ) ， 可 容纳 2324 字 节 。 
CD-ROM 播放 器 在 模式 1 下 每 秒 可 以 读 75 x 2048 SFA, ERX 153.6Kbps (在 模式 2 下 为 174.3Kbps)。 
因为 CD-ROM 技术 得 到 了 改进 ， 增 加 驱动 器 的 旋转 速度 就 变 得 可 能 了 。 一 个 1x 驱动 器 以 153.6Kbps 的 速 
率 进行 读 取 ， 一 个 2x 的 驱动 器 以 153.6KbpsX 2 = 307.2Kbps 的 速率 进行 读 取 ， 依 此 类 推 。 另 外 的 技术 改 
进 是 ， 驱 动 器 设计 者 已 经 从 CLV 驱动 器 变换 成 CAV 驱动 器 ， 这 意味 着 可 以 以 高 于 12x 的 速率 来 读 取信 
息 。 

创建 一 个 CD-ROM AH MAB, FE 20 世纪 90 年 代 中 期 ， 一 种 技术 革新 为 CROM 市 场 注 人 
了 新 的 活力 ， 通 过 改变 制作 CDROM 的 原材料 并 且 在 驱动 器 中 使 用 高 能 量 的 激光 束 ， 这 样 就 出 现 了 价格 
低廉 的 CD-R (CD-Recordable) 设备 。 

下 一 个 革新 是 CD-RW (CD-ReadWrite 或 CD-Rewritable) 磁盘 ， 它 在 盘 表面 上 使 用 了 一 种 不 同 的 物理 
材料 ， 用 来 存储 激光 束 可 读 取 的 信息 。 对 于 CD-RW， 低 能 量 的 激光 束 用 来 读 取信 息 ， 高 能 量 的 激光 束 用 
来 在 物理 表面 上 进行 写 ， 中 能 量 的 激光 束 用 来 清除 表面 的 逻辑 凹陷 ， 控 除 以 前 写 到 磁盘 上 的 数据 。 

这 种 技术 发 展 到 目前 为 止 是 : RFS MAA (DVD). 2HBL, DVD 与 CDROM 没有 什么 区 别 。 
DVD 的 信息 存储 密度 较 高 ， 使 得 可 以 在 媒介 上 存储 更 多 的 数据 。 一 个 标准 的 DVD 可 以 存储 4.7GB 的 信 
E, 技术 专家 可 以 通过 对 盘 表 面 编码 成 两 级 (8.5GB) 及 使 用 盘 的 双 面 (17GB) 来 扩展 DVD 的 容量 。 

CD 和 DVD 设备 的 技术 在 迅速 地 变化 ， 如 果 你 想 要 知道 这 些 设 备 的 当前 技术 ， 可 以 查阅 网 上 的 有 关 资 
料 。 本 节 的 大 多 数 信息 来 自 一 些 商业 网 站 ， 包 括 介 绍 CD 技术 的 http: /Aww.disctronics.co. uk/cdref/ 
cdbasics/cdbasics2. htm 和 介绍 DVD 技术 的 http: //ww.disctronics.co.uk/dvd/dvdframe. htm, 

~ 由 


5.6 小 结 


.设备 管理 的 实现 涉及 资源 管理 器 、 设 备 驱动 程序 以 及 设备 中 断 处 理 程序 。 不 同 的 设备 其 特征 有 很 大 的 
不 同 ， 但 设备 驱动 程序 为 这 些 设备 提供 了 一 组 通用 的 API。 由 于 开放 系统 的 发 展 ， 促 使 操作 系统 设计 者 必 
须 考虑 使 系统 管理 员 很 容易 地 将 设备 和 驱动 程序 增加 到 系统 中 ， 而 无 需 改变 操作 系统 的 源 代码 。UNIX 和 
Windows NT 中 都 使 用 了 这 项 技术 ， 提 供 了 相应 的 工具 ， 帮 助 管理 员 配 置 增加 到 系统 中 的 设备 。 

如 果 单 个 进程 /O 操作 和 计算 可 以 交 选 执行 ， 则 进程 的 整个 响应 时 间 会 减少 。 如 果 将 一 个 进程 的 IO 
操作 和 另 一 个 进程 的 计算 操作 交 迁 执行 ， 则 系统 的 吞吐 率 会 提高 ， 意 味 着 对 所 有 进程 的 服务 会 提升 。 因 为 
有 许多 进程 是 MO 限制 的 ， 或 者 它们 的 大 部 分 运行 时 间 是 1/0 限制 的 ， 已 经 采用 了 很 多 方法 来 提升 OF 
系统 的 性 能 。 缓 冲 是 一 项 传统 的 技术 ， 它 是 通过 交 和 迭 执行 来 提高 1/O 性 能 的 。 在 多 道 程序 设计 系统 中 ， 对 
于 旋转 存储 设备 ， 可 以 对 来 自 不 同 进程 的 1/O 请 求 队列 进行 优化 ， 使 得 磁头 移动 路 径 减 少 。 这 样 的 优化 增 
加 了 设备 吞吐 量 ， 平 均 来 说 ， 减 少 了 进程 的 1/O 等 待 时 间 。 

存储 设备 是 当代 计算 机 系统 中 的 基本 组 成 部 分 。 当 计算 机 应 用 于 越 来 越 多 的 信息 处 理 问题 时 ， 存 储 系 
统 的 性 能 对 处 理 机 的 性 能 影响 也 更 大 了 。 随 着 高 密度 磁盘 、 新 型 存储 媒体 以 及 更 快 的 访问 时 间 等 技术 的 发 
展 ， 存 储 技 术 继续 快速 地 得 到 改善 。 


5.7 习题 
1. 在 一 个 使 用 中 断 的 系统 中 ， 列 举 完成 一 个 输出 操作 所 需要 的 详细 步骤 。 参 照 5.1 节 中 对 输入 指令 
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的 解释 。 

2. 假定 有 3 个 进程 pi, p 和 加， 它们 试图 在 一 台 具 有 中 断 驱 动 的 机 器 上 并 发 执行 ， 假 定 pi 的 tome 
=20 且 laie=350， 访 的 tpm=30 且 taue=10， 思 的 tue=15 且 tuie=35。 假 定 在 任何 时 候 两 
个 进程 不 能 同时 使 用 同一 设备 或 CPU， 则 执行 这 3 个 进程 的 最 少时 间 是 多 少 ? 

3. 参照 硬件 双 缓 冲 ( 见 图 5-13) 技术 ,假设 进程 是 I/O 限制 的 ， 并 且 请 求 字符 的 速率 远 高 于 设备 提 

O 供 字 符 的 速率 ， 解 释 一 下 缓冲 技术 对 进程 运行 时 的 影响 。 如 果 进 程 是 计算 限制 的 ， 并 且 几 乎 不 从 
设备 请 求 字符 ， 影 响 又 将 如 何 ? 

4. 磁盘 控制 器 应 该 包括 硬件 缓冲 吗 ? 解释 你 的 回答 。 

5. 系统 设计 者 必须 区 分 驱动 程序 读 取 的 物理 块 及 传送 给 应 用 进程 的 逻辑 块 。 解 释 一 下 在 一 个 配 有 软 
盘 和 硬盘 的 系统 中 ， 这 种 区 分 是 如 何 体现 其 作用 的 ? 

6. 假定 驱动 程序 配置 有 8 个 磁盘 块 缓冲 ， 与 没有 使 用 缓冲 的 驱动 程序 相 比 ， 则 程序 的 读 性 能 会 提高 
多 少 ? 在 什么 情况 下 能 获得 最 佳 性 能 ? 

7. 磁盘 驱动 器 制造 商 增加 磁盘 容量 的 一 种 方法 就 是 增加 更 多 的 面 ， 这 样 做 需要 改变 驱动 程序 的 接口 
13? 如 果 不 需 要 ， 给 出 理由 。 

8. 在 一 个 不 使 用 可 重 配置 设备 驱动 程序 的 系统 中 ， 对 操作 系统 而 言 ， 需 要 实现 驱动 程序 - 内 核 接口 
吗 ? 解释 你 的 回答 。 

9. 解释 一 下 为 什么 终端 键盘 使 用 的 串 行 通 信 端 口 ， 与 打印 机 使 用 的 串 行 通信 端口 ， 通 常 不 采用 同样 
的 优化 技术 。 

10. 针对 一 个 磁带 设备 的 驱动 程序 ， 你 会 考虑 哪些 优化 技术 ， 并 证 明 每 种 技术 的 合理 性 。 

11. 假设 读 写 头 在 97 磁道 上 ， 正 移 向 199 磁道 (磁盘 上 的 最 大 磁道 号 )， 并 且 磁 盘 的 请 求 队列 中 包含 
有 分 别 对 84、155、103、96、197 磁道 上 扇 区 的 读 写 请 求 。 
a. 使 用 FCFS 优化 策略 满足 队列 中 的 服务 请 求 ， 读 写 头 总 的 移动 数 是 多 少 ? 
b. 使 用 Scan 优化 策略 满足 队列 中 的 服务 请 求 ， 读 写 头 总 的 移动 数 是 多 少 ? 
c. 使 用 Look 优化 策略 满足 队列 中 的 服务 请 求 ， 读 写 头 总 的 移动 数 是 多 少 ? 

12. 试 构造 出 一 种 情况 ， 使 得 采用 除 SSTF 之 外 的 磁盘 调度 算法 ， 都 能 以 较 少 的 步 数 满足 所 有 的 磁盘 
IMO 服务 请 求 。 假 设 磁盘 有 300 个 磁道 ， 任 何 寻 找 操 作 最 多 花费 100 个 磁道 的 往返 时 间 。 

13. 5.2 PPE TES BRN SEAT, EGAN C 程序 中 怎么 实现 它们 (使 用 stdio HE)? $ 
示 : 考虑 使 用 内 核 线程 来 解决 这 个 问题 。 

14. 5.5 节 描 述 了 CD-ROM 驱动 器 ，CD-ROM 的 记录 道 是 从 里 到 外 的 单个 螺旋 线 ， 而 磁盘 的 磁道 是 一 
组 同心 贺 ， 这 些 设备 是 如 何 有 效 地 支持 seek () 命令 的 ? 


实验 5. 1: 软盘 驱动 程序 


| 本 实验 能 够 在 任何 版 本 的 Windows 或 UNIX 操作 系统 下 实现 。 ] 
Windows 和 UNIX 系统 允许 程序 员 “ 打 开 ” 软 盘 ， 并 且 读 写 其 信息 内 容 ， 好 像 它 是 一 个 普通 的 顺序 文 
件 一 样 。 本 实验 让 你 着 手 开发 这 种 原始 的 I/O 操作 功能 。 
部 分 A 
编写 函数 用 以 检测 逻辑 驱动 器 A 中 的 软盘 的 基本 信息 ， 读 取 磁 盘 的 扇 区 ， 并 是 把 在 软盘 中 找到 的 信息 
输出 到 标准 的 输出 流 中 。 下 面 是 函数 的 原型 : 
Disk physicalDisk(char driveLetter); 
void sectorDump(Disk theDisk, int logicalSectorNumber ) ; 
BOOL sectorRead 
Disk theDisk, 
unsigned logicalSectorNumber, 


char *buffer 
) 


调用 函数 physicalDisk () 初始 化 磁盘 为 随后 的 操作 做 准备 ， 参 数 driveLetter 用 来 确定 磁盘 驱动 器 。 
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然后 应 该 使 用 主机 操作 系统 的 “文件 打开 ”系统 调用 ， 为 使 用 设备 做 准备 ， 并 确定 磁盘 的 结构 。 

函数 sectorRead () 从 确定 的 磁盘 (句柄 ) 中 读 取 由 logicalSectorNumber 确定 的 扇 区 数据 ， 到 一 个 
特定 的 缓冲 buffer 中 ， 缓 冲 的 大 小 应 与 磁盘 块 一 样 。 读 操作 如 果 能 够 读 取 确定 的 块 到 缓冲 中 ， 那 么 应 该 
返回 TRUE， 否 则 返回 FALSE, 

函数 sectorDump () 调用 sectorRead ()， 然 后 将 调用 的 结果 打印 到 标准 输出 设备 上 。 首 先 将 地 址 打 
印 出 来 ， 然 后 在 同一 行 中 将 16 个 字 节 的 十 六 进 制 表示 打印 出 来 ， 再 打印 下 一 行 等 。 例 如 ， 你 的 输出 类 似 
F: 


00000120 01234567 89ABCDEF... 456789AB 


部 分 B 

修改 函数 sectorDump ()， 使 得 当 它 打 印 逻 辑 扇 区 0 时 可 打印 出 图 5-23 所 示 的 信息 (以 部 分 A 中 的 格 
式 显 示 引 导 代码 )。 对 于 扇 区 1 到 18， 输 出 的 格式 为 : 在 每 一 行 之 前 增加 一 个 地 址 ， 和 部 分 A 中 输出 行 的 
地 址 相同 。12 位 数据 (3 个 十 六 进 制 字符 ) 为 一 组 。 你 的 输出 类 似 于 : 


00000004 012 345 689 ABC DEF ... 678 9AB 


部 分 C 
编写 一 个 驱动 程序 ， 说 明 在 部 分 A 和 部 分 B 中 编写 的 代码 能 够 正确 工作 。 


背景 


软盘 是 广泛 使 用 的 辅 存 设备 ， 从 最 早 的 MSDOS 时 代 到 现在 的 桌面 系统 ， 它 就 配置 在 个 人 计算 机 中 。 
在 最 早 的 系统 中 ， 使 用 5.25 英寸 软盘 ， 容 量 为 360K， 到 20 世纪 80 年 代 ， 系 统 中 一 般 改 用 3.25 英寸 软 
盘 ， 容 量 为 1.44M。 尽 管 软件 的 发 布 多 使 用 只 读 光 盘 (因为 容量 大 ) ， 软 盘 驱动 器 仍然 配置 在 大 多 数 的 个 
人 计算 机 中 。 它 是 一 种 便宜 的 、 可 移动 的 、 用 于 保存 中 等 大 小 文件 的 通用 媒体 。 

MS-DOS 磁盘 格式 

MS-DOS 定义 了 一 种 特殊 的 磁盘 格式 ， 它 仍然 在 Windows XP 和 Linux 中 使 用 。MS-DOS 的 基本 1/O 系 
统 (BIOS) 提供 了 一 组 程序 ， 能 够 从 磁盘 中 读 写 块 。BIOS 中 也 提供 了 一 个 对 磁盘 块 地 址 的 额外 抽象 ， 称 
ACB RK, BAR 0 对 应 于 磁盘 的 0 面 0 道 1 扇 区 (磁盘 上 的 面 和 磁道 从 0 开始 ， 但 扇 区 是 从 1 
开始 的 ， 其 中 的 原因 已 经 无 从 查证 ) ， 逻 辑 扇 区 1 在 0 面 0 道 2 扇 区 ， 依 此 类 推 。 

在 磁盘 用 于 正常 的 [DO 操作 之 前 ， 它 必须 进行 格式 化 ， 在 磁盘 上 预先 确定 的 位 置 写 人 一 些 基本 信息 。 
KH, BARK 0 包含 有 一 个 预 留 区 (reserved area) (也 称 为 引导 区 或 引导 记录 )。 个 人 计算 机 的 启动 序 
列 依赖 于 引导 区 的 内 容 ， 存 储 在 逻辑 0 扇 区 ， 其 组 织 结构 如 图 5-23 所 示 [Messmer，1995]。 其 中 的 一 些 域 
的 作用 可 能 不 好 明白 ， 除 非 你 阅读 了 MS-DOS 中 格式 化 磁盘 的 所 有 相关 文件 。 








0x00 0x02 <A jump instruction to Oxle> 

0x03 0x0a Computer manufacturer name 

0x0b Ox0c Bytes per sector 

0x0d 0x0d Sectors per cluster 

0x0e 0x0f Reserved sectors for the boot record 

0x10 0x10 Number of PATs 

Oxil 0x12 Number of root directory entries 

0x13 0x14 Number of logical sectors 

0x15 0x15 Medium descriptor byte (used only on old versions of 
MS-DOS) 

0x16 0x17 Sectors per FAT 

0x18 0x19 Sectors per track 

Oxla Oxlb Number of surfaces (heads) 

Oxle Oxid Number of hidden sectors 

Oxle wae Bootstrap program 











图 5-23 引导 扇 区 
注 : 引导 区 包含 了 磁盘 格式 描述 ， 如 每 个 磁道 的 扇 区 数 。 其 中 也 包含 了 用 于 初始 化 操作 系统 的 引导 程序 。 
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在 引导 区 的 开始 位 置 ， 包 含 了 一 条 机 器 指令 ， 跳 转 到 地 址 0xle 处 。 这 样 做 的 理由 是 ， 在 刚 开 始 启动 
ASM, QHBAAEILES HIS AHP eK 0 加 载 到 主 存 ， 然 后 开始 执行 在 引导 区 开始 位 置 的 程序 
( 见 4.6 节 )。 由 于 有 几 个 描述 磁盘 几何 结构 (disk geometry) 的 基本 参数 ， 而 它们 在 启动 时 需要 知道 ， 它 
们 的 值 保存 在 地 址 0x03 到 Oxid 的 区 域 ， 因 而 当 处 理 器 开始 执行 引导 程序 时 ， 它 立即 遇 到 跳 转 指令 ， 绕 过 
存放 磁盘 几何 结构 信息 的 区 域 。 

硬盘 有 对 它们 另外 一 个 层面 上 的 抽象 ， 称 为 磁盘 分 区 (disk partition) o 如 果 一 个 硬盘 被 分 区 ， 在 直接 
访问 物理 磁盘 的 虚拟 机 之 上 (BIOS, 在 MS-DOS 中 )， 每 个 分 区 都 可 以 被 当 作 物理 磁盘 使 用 。 在 BIOS 系 
统 中 ， 一 个 硬盘 最 多 能 够 分 区 成 4 个 不 同 的 逻辑 磁盘 ， 每 个 都 有 自己 的 一 组 逻辑 扇 区 。 如 果 一 个 磁盘 分 区 
为 可 引导 磁盘 分 区 (bootable disk partition) ， 那 么 它 的 逻辑 扇 区 0 就 是 引导 扇 区 。 在 一 个 被 分 区 的 磁盘 中 ， 
物理 的 0 头 0 道 工 扇 区 将 会 包含 一 个 分 区 扇 区 (partition sector) ， 而 不 是 一 个 引导 扇 区 。 分 区 扇 区 提供 的 
信息 描述 硬盘 是 如 何 分 区 成 逻辑 磁盘 的 。 粗 略 地 讲 ， 分 区 扇 区 开始 是 一 个 446 字 节 的 程序 ， 当 硬件 加 电 
时 ， 它 将 到 0 头 0 道 1 扇 区 (好像 磁盘 未 被 分 区 一 样 ) 开始 执行 代码 。 如 果 磁 盘 是 分 区 的 ， 从 扇 区 的 第 一 
个 字 节 开始 ， 是 一 个 446 字 节 的 引导 程序 ; 如 果 磁 盘 不 是 分 区 的 ， 将 是 一 条 跳 转 指令 ， 转 去 执行 存储 在 扇 
区 地 址 Oxle 处 的 引导 程序 。 对 分 区 磁盘 来 说 ， 引 导 程 序 后 面 紧 接 的 是 一 个 64 字 节 的 分 区 表 ， 其 中 包含 了 
4 个 分 区 表 项 ， 每 个 都 描述 了 用 作 分 区 的 物理 磁盘 部 分 的 信息 (分 区 的 开始 扇 区 、 结 束 遍 区 、 分 区 中 的 扇 
区 数 等 )。 分 区 扇 区 的 最 后 两 个 字 节 包含 一 个 “魔法 数字 ”0xaa55， 用 来 标识 分 区 扇 区 。 

在 Linux 系统 中 ， 分 区 磁盘 通常 使 用 Linux 加 载 器 (LILO) ， 它 用 一 个 程序 代替 了 引导 记录 ， 提 示 用 户 选 
择 哪 一 个 磁盘 分 区 用 于 启动 序列 。 因 此 ， 当 计算 机 启动 时 ， 很 容易 引导 计算 机 并 选择 所 使 用 的 引导 记录 。 

使 用 UNIX 中 的 软盘 API 

UNIX 的 设备 接口 与 文件 管理 器 的 接口 一 样 。 实 际 上 ， 一 个 在 用 户 空间 中 执行 的 UNIX 进程 可 以 使 用 
如 下 的 代码 打开 一 个 软盘 : 


open ("/dev/fd0 ”0_RDONLY)， 、 
然后 进程 可 以 通过 内 核 系统 调用 read () 来 读 取 整 个 磁盘 设备 ， 好 像 它 是 一 个 线性 的 字 节 序列 一 样 。 


bps = ...; //# bytes/block from 0x0b and 0x0c in the boot sector 
len = read(fid, buffer, bps); 


FP HES EA —— it Pp WAS PREM BERR RMSE, REBSOIT 
区 的 字 节 ， 如 此 排列 下 去 。 

根据 你 的 实验 机 器 的 具体 配置 ，A 驱动 器 这 个 特殊 文件 可 能 有 不 同 的 名 字 ， 可 能 是 /dev/fd0， 但 也 可 
能 是 /dev/fdnH1440,. 其 中 n 是 一 个 序列 数 ， 可 能 为 0。 

如 果 你 想 写 软盘 ， 则 必须 得 到 超级 用 户 的 权限 才能 运行 你 的 程序 。 在 本 练习 中 ， 你 将 使 用 这 个 设备 接 
口 ， 如 同一 个 简化 的 块 设备 接口 一 样 ， 意 味 着 你 将 打开 文件 ， 然 后 只 能 按 整个 块 内 容 (512 字 节 ) 进行 读 取 。 

由 于 要 读 取 文 件 的 不 同 部 分 一 一 磁盘 的 不 同 扇 区 ， 你 将 需要 使 用 函数 lseek， 用 来 定位 磁盘 的 读 写 头 
到 指定 的 位 置 。 

使 用 Win32 中 的 软盘 API 

Windows 同样 也 人 允许 你 使 用 一 般 的 文件 函数 对 设备 进行 读 写 。createFile () 函数 能 够 用 来 打开 一 个 
设备 ， 如 软盘 。 例 如 ， 如 果 想 打开 驱动 器 A 中 的 软盘 ， 并 像 读 取 线性 字 节 流 一 样 来 读 取 其 中 的 内 容 ， 可 以 
进行 如 下 形式 调用 : 


CreateFile( 
HAAA AAA", 
GENERIC_READ, 
FILE SHARE READ, 
NULL, T 
OPEN_ALWAYS, 
0 r 
NULL 


a 
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如 果 A 驱动 器 中 有 软盘 ，Creategile () 将 会 返回 一 个 句柄 ， 这 个 句柄 可 由 ReadFile 使 用 ， 将 整个 磁 
盘 的 内 容 作为 字 节 流 来 读 取 。 为 了 完成 有 效 的 读 取 ， 你 应 该 以 扇 区 为 单位 进行 读 写 。 例 如 ， 使 用 1.44MB 
的 软盘 ， 只 能 每 次 读 取 0、512 或 1024 个 字 节 等 。 

尽管 软盘 可 以 像 文件 一 样 打开 ， 你 仍然 需要 执行 设备 的 特殊 操作 (一 些 正常 的 I/O 操作 会 有 设备 相关 
的 解释 )。 具 体 地 说 ， 就 是 在 直接 读 写 软盘 之 前 ， 你 一 定 要 知道 磁盘 的 几何 结构 一 一 在 引导 遍 区 存储 的 信 
息 。Windows 使 用 如 下 函数 提供 磁盘 几何 结构 信息 : 


BOOL DeviceloControl{ 
HANDLE hDevice, // handle to device of interest 
DWORD dwIoControlCode, 
// control code of operation to perform 
LPVOID lpInBuffer, // pointer to buffer to supply input data 
DWORD nInBufferSize, // size of input buffer 
LPVOID lpOutBuffer, 
// pointer to buffer to receive output data 
DWORD nOutBufferSize, // size of output buffer 
LPDWORD lpBytesReturned, 
// pointer to variable to receive output byte count 
LPOVERLAPPED lpOverlapped 
// ptr to overlapped structure for asynchronous operation 


) 
句柄 hDevice 是 调用 CreateFile () 返回 的 结果 。 参 数 dwioControlCode 的 值 应 该 设置 为 IOCIL_ DISK 
_GET _ DRIVE _GEOMETRY。 当 然 为 了 保存 结果 ， 你 要 按 n0utBufferSize 大 小 分 配 空 间 ， 并 在 lpBytesRe- 
turned 中 返回 结果 的 字 节 长 度 。 对 于 1.44MB 软盘 格式 来 说 ，DeviceIocontrol () 返回 的 值 为 : f 
E 每 扇 区 512 个 字 节 
n 每 磁道 18 个 扇 区 
a ACREA OM) 
m 80 个 柱 面 , 
当然 你 也 可 以 直接 从 引导 扇 区 中 读 取 这 些 信 息 。 由 于 会 读 取 文 件 的 不 同 部 分 一 -磁盘 的 不 同 扇 区 ， 你 
将 需要 使 用 函数 SetFilePointer ()， 用 来 定位 磁盘 的 读 写 头 到 指定 的 位 置 。 
解决 问题 
在 你 能 够 执行 磁盘 1/0 操作 之 前 ， 必 须 为 磁盘 的 细节 信息 创建 一 个 抽象 ， 必 须 使 用 函数 physicalDisk 
O 来 检查 磁盘 的 格式 信息 ， 然 后 建立 可 以 由 sectorpump () 访问 的 数据 结构 。 每 个 磁盘 都 有 固定 的 几何 
结构 : 
struct geometry { 
unsigned bytesPerSector; 
unsigned sectorsPerTrack; 
unsigned heads; /* tracks per cylinder */ 


unsigned cylinders; 
}; 


磁盘 的 结构 信息 存储 在 引导 扇 区 内 〈 见 图 5-23)。 首 先 ， 你 将 使 用 数据 结构 中 的 bytesPerSector 值 ， 
当然 只 要 你 需要 ， 也 可 以 使 用 其 他 的 域 值 。 
在 设计 你 的 文件 系统 时 ， 可 以 使 用 一 个 抽象， 通过 逻辑 扇 区 来 读 写 物 理 磁 盘 。 


typedef struct disk *Disk; 
struct disk { 

HANDLE floppyDisk; 

DISK GEOMETRY geometry; 
hi ` 


上 述 代码 定义 了 一 个 Disk SHAH, FARKA OFM, RAR LHSTRKBM 1 开始 的 。 在 
THHAS 扇 区 的 逻辑 扁 区 L 的 地 址 为 : 


L=S-1+T* (heads* sectorsPerTrack) + H* sectorsPerTrack 
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你 不 需要 把 逻辑 扇 区 转换 成 相应 的 道人 头 / 扇 区 的 形式 ， 这 些 由 操作 系统 完成 。 
第 一 个 函数 实现 对 物理 磁盘 进行 基于 直接 1/O 的 磁盘 抽象 操作 。 


Disk physicalDisk (char driveletter); 


为 了 实现 这 个 函数 ， 你 必须 使 用 主机 操作 系统 的 内 核 函 数 open O 打开 软盘 驱动 器 ， 并 保证 进行 如 下 
操作 : 

m 上 映射 驱动 器 号 到 一 个 大 写字 母 。 

m 如 果 你 使 用 DOS 中 的 名 字 ， 去 掉 C 字符 串 中 的 反 斜 杠 。 

TE Windows 中 ， 在 调用 CreateFile () 时 ， 参 数 dwCreationDistribution 要 使 用 OPEN _ EXISTING 值 ， 
参数 dwFlagsAndAttributes 要 使 用 FILE_ FLAG _ NO _ BUFFERING 和 FILE _ FLAG _ RANDOM _ ACCESS 值 。 在 参数 
fdwShareMode 中 ， 要 设置 GENERIC READ, GENERIC _ WRITE, FILE SHARE _ READ, FILE SHARE _ WRITE 标志 。 
一 且 你 打开 磁盘 ， 就 能 够 通过 DeviceloCall () 得 到 磁盘 几何 结构 信息 。 

下 面 为 解决 方案 中 使 用 的 头 文件 的 内 容 。 


/* This interface is derived from one designed 
* by Norman Ramsey for CSci 413 at Purdue University, 1996 
*/ 


#ifndef DISKMODULE_H 
#define DISKMODULE_H 


define BOOT -1 
#define FAT1 -2 
define FAT2 -3 
#define BOOT_SECTOR 0 
#define FAT1_SECTOR 1 
. #define FAT2_SECTOR 10 
#define ROOT_SECTOR 19 
include <windows.h> 
#include <winioctl.h> // DISK_GEOMETRY 


struct geometry { 
unsigned bytesPerSector; // bytes in each sector 
unsigned sectorsPerTrack; // number of sectors in a track 
unsigned heads; // number of tracks per cylinder 
unsigned cylinders; // number of cylinders on the disk 


ye 


typedef struct disk *Disk; 
struct disk { 
HANDLE floppyDisk; 
DISK_GEOMETRY geometry; 
he 


/* Function prototypes on the Disk interface */ 


// Abstraction of the NT physical disk 
Disk physicalDisk(char driveLetter); 
void sectorDump(Disk theDisk, int logSectorNumber); 
BOOL sectorRead (Disk, unsigned, char *); 

#endif DISKMODULE_H 


解决 问题 的 计划 

你 可 以 按 下 面 的 次 序 思考 如 何 解决 问题 。 

编写 physicalDisk () 函数 的 实现 。 

编写 sectorRead () 和 segmentDump () 函数 的 实现 ， 你 可 以 使 用 它们 输出 任意 扇 区 的 十 六 进 制 的 内 容 。 
使 用 segmentDump () 例 程 检查 软盘 。 

下 面 是 部 分 C 中 需要 的 驱动 程序 部 分 的 框架 代码 。 
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#include “..\???.h" // data structures introduced above 


int main(...){ 
Disk theDisk; 
int firstSector, lastSector; 


firstSector = ...; // first sector you wish to dump 
lastSector = ...;// last sector you wish to dump 


theDisk = physicalDisk(...); 


// Dump some sectors 
sectorDump(theDisk, BOOT); 
sectorDump(theDisk, FAT1)j;. 
sectorDump(theDisk, FAT2); 
if(firstSector >= 0) { 
for(i = firstSector; i <= lastSector; i++) { 
sectorDump(theDisk, i); 
printf(“\n"); 
} 


} 


你 需要 针对 一 个 真正 的 软盘 进行 实验 。 使 用 Windows 操作 系统 ， 准 备 一 张 带 有 一 些 简单 文件 的 软盘 ， 
你 的 代码 应 该 能 够 打开 这 个 软盘 ， 并 从 中 读 取 任 意 的 扇 区 内 容 。 





第 6 章 进程、 线程 和 资源 的 实现 


进程 以 及 它 的 当代 扩展 一 一 线程 是 现代 计算 机 系统 中 的 活动 计算 单元 。 进 程 和 线程 在 一 些 被 动 资源 如 
主 存储 器 和 设备 上 进行 操作 。 操 作 系统 进程 管理 器 提供 了 大 量 的 服务 ， 用 来 定义 、 支 持 和 管理 系统 的 进 
程 、 线 程 和 资源 。 进 程 管理 是 研究 操作 系统 细节 的 出 发 点 。 本 章 和 随后 的 四 章 对 进程 管理 提供 了 一 个 全 面 
的 讨论 。 本 章 描述 了 进程 管理 的 一 般 框架 ， 然后 介绍 如 何 实现 这 些 框架 。 后 面 的 章节 详细 描述 进程 调度 、 
同步 和 死 锁 的 一 些 具 体 问 题 。 


6.1 手边 的 任务 


在 第 1 章 , 我 们 了 解 到 操作 系统 创建 了 大 量 的 虚拟 机 ， 每 个 虚拟 机 能 执行 一 个 应 用 程序 。 人 们 在 许多 
不 同 的 行业 中 使 用 了 虚拟 机 的 概念 : 具有 单个 美国 邮政 地 址 的 公司 能 够 为 它 的 顾客 创建 大 量 的 邮箱 一 一 美 
国 邮 局 邮箱 的 抽象 。 老 式 的 PBX 电话 系统 为 整个 公司 使 用 了 一 个 电话 号 码 ， 但 公司 内 部 使 用 虚拟 的 电话 
网 络 ， 每 个 订户 有 一 个 扩展 号 码 。 

在 第 2 章 ， 我 们 介绍 了 怎样 使 用 操作 系统 抽象 进程、 线程 和 文件 ) 来 解决 信息 处 理 问题 ， 我 们 称 这 
组 抽象 的 集合 为 操作 系统 虚拟 机 。 由 于 技术 发 展 的 原因 ， 术 语 “ 进 程 ” 有 两 个 不 同 的 意义 。 经 典 进程 的 概 
念 表示 的 是 汉 : 诺 依 曼 计 算 机 上 执行 的 一 个 程序 。 到 20 世纪 80 年 代 晚 期 和 90 年 代 早 期 前 ， 这 已 经 是 一 个 
很 好 的 抽象 了 了。 然而 后 来 ， 新 的 虚拟 机 (如 Mach CRE [Walmer 和 Thompson, 1989], OSF DCE [Open 
Group, 1998] 和 Windows) 开始 为 并 发 提供 新 的 、 额 外 的 支持 。 新 的 虚拟 机 的 思想 就 是 将 经 典 进程 分 为 
两 个 部 分 ， 称 为 现代 进程 (modern process) 和 线程 (thread)。 现 代 进 程 是 经 典 进 程 的 一 部 分 ， 它 定义 了 能 
执行 程序 的 定制 的 计算 框架 。 线 程 是 原来 进程 当中 的 用 来 跟踪 框架 内 的 代码 执行 的 部 分 。 打 个 比方 ， 现 代 
进程 像 一 个 工作 室 ， 线 程 就 像 使 用 工作 室 来 编写 乐曲 的 音乐 家 。 在 经 典 进程 里 ， 每 个 音乐 家 独占 工作 室 ， 
而 在 现代 进程 中 ， 几 个 音乐 家 (线程 )》 共 用 一 个 工作 室 来 一 起 编写 乐曲 。 根 据 类 比 可 以 推断 : 在 现代 进程 
模型 下 ， 程 序 员 可 以 设计 软件 使 得 计算 的 不 同 部 分 能 (作为 一 组 线程 ) 在 单个 的 现代 进程 框架 内 一 起 工 
作 。 当 现代 进程 内 只 有 一 个 线程 时 ， 经 典 进程 与 现代 进程 看 起 来 是 一 致 的 。 经 典 进程 可 以 一 起 协作 来 解决 
问题 ， 但 它们 并 不 共享 一 个 定制 的 计算 框架 。 

现在 ， 由 于 现代 进程 和 线程 的 发 展 ， 很 多 问题 变 得 复杂 化 : 操作 系统 概念 在 1990 年 之 前 就 发 展 起 来 
了 如 多 道 程序 系统 、 同 步 和 死 锁 )， 但 它们 都 是 在 经 典 进 程 模型 下 发 展 起 来 的 。 现 在 ， 所 有 这 些 概念 都 
需要 扩展 ， 以 适用 于 现代 进程 和 线程 。 即 使 这 样 ， 我 们 首先 了 解 经 典 进程 内 的 操作 系统 概念 ， 然 后 将 它们 
扩展 到 现代 进程 和 线程 中 讨论 。 

一 些 现代 的 操作 系统 (如 FreeBSD UNIX) 并 不 支持 现代 进程 模型 ， 其 他 的 操作 系统 (如 Linux 和 So- 
laris) 起 初 设计 成 支持 经 典 进程 ， 但 后 来 进行 了 修改 可 以 支持 现代 进程 和 线程 ， 这 意味 着 为 了 支持 现代 进 
程 和 线程 ， 对 它们 的 基本 设计 进行 了 修改 。 当 然 ， 一 些 操 作 系统 如 Windows 和 Mach 一 开始 就 设计 成 支持 
现代 进程 和 线程 。 因 为 历史 原因 ， 操 作 系统 设计 者 常常 称 UNIX 操作 系统 系列 为 经 典 进 程 系统 ，Windows 
系列 为 基于 线程 GREE) 的 系统 。 这 种 称 法 并 不 准确 ， 因 为 有 好 几 个 UNIX 版 本 对 现代 进程 和 线程 提 
供 了 完全 的 支持 。 在 本 书 中 ,我 们 在 必要 的 时 候 对 经 典 进程 和 现代 进程 做 了 区 分 。 当 使 用 术语 “进程 ” 
时 ,讨论 的 上 下 文 将 指出 我 们 谈论 的 是 经 典 进程 还 是 现代 进程 。 在 所 有 其 他 的 情况 下 ， 我 们 使 用 “进程 ” 
(或 “进程 /线程 ") 来 特 指 一 个 计算 ， 它 或 者 是 一 个 经 典 进程 ， 或 者 是 一 个 单线 程 的 现代 进程 。 

本 章 的 目的 就 是 通过 研究 进程 管理 的 设计 和 实现 来 看 操作 系统 是 如 何 设计 的 。 当 你 想 要 了 解 一 个 结构 
复杂 的 软件 时 ， 常 常 是 先 要 了 解 代码 的 一 般 结构 ， 然 后 要 详细 了 解 软件 的 各 个 部 分 的 原理 ， 本 章 就 采用 了 
这 种 方法 。 本 章 首先 描述 了 进程 管理 器 的 主要 部 分 ， 这 样 你 可 以 初 寅 它 的 设计 的 大 体 框架 。 本 章 的 其 余部 
分 讨论 了 进程 管理 器 主要 部 分 的 设计 策略 ， 有 些 进程 管理 概念 (调度 、 同 步 和 死 锁 ) 需要 更 多 的 讨论 ， 所 
以 我 们 把 它们 安排 到 单独 的 一 章 。 
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6.1.1 经 典 进 程 的 虚拟 机 


现代 操作 系统 使 用 了 多 道 程序 设计 环境 ， 为 应 用 程序 提供 了 一 种 假象 一 一 应 用 程序 看 起 来 都 在 独立 的 
机 器 上 执行 代码 。 操 作 系统 使 用 空 分 复 用 方法 来 分 配 可 执行 的 主 存 块 ， 使 用 时 分 复 用 方法 来 为 不 同 的 经 典 
进程 分 配 处 理 器 。 在 多 道 程序 设计 环境 下 ， 如 果 有 N 个 进程 共享 处 理 器 ， 在 时 间 间 隔 K x N 秒 内 ， 每 个 
进程 能 够 使 用 处 理 器 大 约 K 秒 。 

在 多 道 程 序 设 计 环 境 下 ， 虚 拟 机 是 一 个 基本 的 概念 ， 它 定义 了 经 典 进程 执行 的 逻辑 计算 环境 。 理 想 情况 
下 ,虚拟 机 应 该 是 物理 机 的 一 个 克隆 。 每 个 进程 可 以 在 虚拟 机 上 执行 二 进 制 代码 ， 就 好 像 在 物理 机 上 执行 代 
码 一 样 。 图 6-1 是 这 种 理想 抽象 的 图 示 。 每 个 虚拟 机 的 特征 (在 操作 系统 接口 线 以 上 ) 是 根据 冯 . 庶 依 曼 计 
算 机 的 CPU 和 主 存 的 行为 而 建 模 的 。 进 程 的 抽象 控制 单元 根据 图 4-5 描述 的 取 指 -执行 算法 来 执行 进程 的 程 
序 。 抽 象 的 ALU 仅 执行 用 户 模式 的 指令 〈 不 含 特权 指令 )。 程 序 和 执行 用 的 数据 存储 在 抽象 的 主 存 中 。 

操作 系统 是 在 图 中 “操作 系统 接口 ” 线 下 面 实现 的 。 操 作 系统 程序 被 装载 进 机 器 的 执行 主 存 中 (与 应 
用 程序 空 分 复 用 )。 当 计算 机 启动 时 ， 操 作 系 统 程序 开始 执行 。 当 它 选 择 一 个 进程 在 虚拟 机 上 执行 时 ， 它 
促使 处 理 器 跳 转 到 包含 目标 虚拟 机 代码 的 可 执行 主 存 块 上 ， 然 后 开始 执行 代码 。 在 一 个 时 间 片 过 后 (由 时 
钟 中 断 发 生来 指示 )， 操 作 系 统 得 到 控制 权 然后 开始 执行 它 自己 的 代码 。 通 过 反复 执行 这 样 的 操作 序列 ， 
操作 系统 促使 硬件 来 模拟 虚拟 机 的 活动 。 这 种 模拟 是 不 完美 的 ， 因 为 虚拟 机 不 能 执行 任何 特权 指令 ， 特 权 
指令 是 通过 操作 系统 服务 来 处 理 的 。 

应 用 程序 通过 调用 操作 系统 虚拟 机 接口 (也 称 为 系统 调用 接口 或 OS API) 上 的 函数 来 请 求 操作 系统 
服务 ， 见 图 6-2。 这 些 函 数 由 操作 系统 的 不 同 部 分 来 实现 : 如 设备 管理 器 、 进 程 管理 器 、 存 储 管 理 器 和 文 
件 管理 器 。 操 作 系统 的 进程 管理 器 部 分 创建 进程 、 线 程 和 资源 抽象 (包含 了 虚拟 机 间 的 资源 共享 )。 例 如 ， 


进程 管理 器 实现 了 : 


fork() CreateThread() 
wait() CreateProcess() 
exec() CloseHandle( ) 
WaitForSingleObject() 





图 6-2 进程 管理 器 的 外 部 视图 
注 : 应 用 程序 将 操作 系统 看 成 是 虚拟 机 ， 应 用 程序 可 以 通 


图 6-1 实现 进程 抽象 过 调用 操作 系统 提供 的 API 函数 来 请 求 操作 系统 服务 。 
注 : 操作 系统 直接 在 硬件 之 上 执行 ， 它 实现 了 大 量 的 虚 这 些 函 数 由 操作 系统 的 不 同 部 分 来 实现 ， 但 是 都 由 一 
. 拟 机 (在 操作 系统 接口 线 以 上 )。 每 个 虚拟 机 都 是 底 个 单个 的 接口 来 导出 。 不 同 的 操作 系统 提供 不 同 的 


层 的 汉 诺 依 曼 计算 机 的 模拟 ,包括 CPU 和 主 存 。 API， 即 使 它们 完成 相似 的 功能 。 
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m@ UNIX 中 类 似 于 fork () 的 系统 调用 和 Windows 的 CreateProcess () 系统 调用 ， 用 来 创建 经 典 / 现 

代 进 程 。 

E Linux 中 类 似 于 pthread_create () 的 调用 和 Windows 中 的 CreateThread () 调用 ， 用 来 在 现代 进 

程 的 上 下 文中 实现 线程 。 

@ UNIX 中 的 close () 调用 和 Windows 中 的 CloseHandle () 调用 ， 用 来 请 求 释放 资源 。 

操作 系统 函数 和 用 户 模 式 指令 的 组 合 定 义 了 虚拟 机 接口 。 进 程 管理 器 负责 在 虚拟 机 接口 上 提供 一 个 无 
颖 的 接口 ， 使 得 用 户 程 序 的 二 进 制 代码 可 在 虚拟 机 上 执行 ， 好 像 虚 拟 机 就 是 物理 机 器 一 样 。 这 里 主要 的 障 
碍 就 是 虚拟 机 仅 能 执行 用 户 模式 指令 ， 当 它们 希望 执行 特权 指令 时 ， 它 们 要 调用 操作 系统 函数 。 我 们 将 在 
6.3 节 看 到 更 多 的 细节 。 


6.1.2 支持 现代 进程 和 线程 
现在 ， 让 我 们 来 考虑 一 下 如 何 改进 虚 





拟 机 ， 使 得 它 实现 具有 一 个 或 多 个 相关 线 
程 的 现代 进程 。 在 经 典 进程 情况 下 ， 多 道 OO 
程序 设计 虚拟 机 是 物理 CPU 和 主 存 的 一 = 
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”实体 一 一 与 一 个 经 典 进程 相关 的 隐 式 的 单 
线程 〈 也 称 为 基线 程 )。 当 虚拟 机 处 理 器 
在 执行 时 ， 基 线程 在 执行 。 当 虚拟 机 停止 
时 ， 基 线程 也 被 挂 起 。 

在 一 个 支持 现代 进程 的 操作 系统 中 ， 
虚拟 机 允许 额外 的 线程 来 共享 主 进程 的 资 
W (如 抽象 处 理 器 和 主 存 )。 概 念 上 ， 这 
可 以 通过 另 一 层 抽 象 来 完成 : 假定 图 6-1 
中 的 每 个 虚拟 机 被 设计 成 多 道 程序 设计 机 
器 。 如 图 6-3 所 示 ， 线 程 在 虚拟 机 上 实现 
了 时 分 复 用 ， 而 虚拟 机 在 物理 处 理 器 上 实 
现 了 时 分 复 用 。 如 果 我 们 真正 地 以 这 种 方 
式 实现 线程 ， 那 意味 着 每 个 虚拟 机 将 包含 
它 自 己 的 多 道 程序 设计 操作 系统 。 这 基本 
上 是 用 户 空间 线程 〈user space thread) 包 
(如 Mach C 线程 库 和 POSIX 线程 库 ) X 
现 现代 进程 和 线程 的 方式 。 也 就 是 说 ， 操 
作 系 统 实现 了 经 典 进 程 ， 用 户 空间 线程 库 
在 操作 系统 虚拟 机 上 执行 ， 使 得 现代 进程 


内 可 以 有 多 个 线程 。 
现代 的 操作 系统 (如 Windows) 为 线 A: 概念 上 ， 线 程 是 执行 在 单个 虚拟 机 上 的 多 道 程序 设计 实 
程 模型 提供 了 显 式 支持 。 支 持 内 核 线程 体 。 用 户 空间 线程 是 在 经 典 进程 内 实现 的 ， 而 内 核 线程 是 


(kernel threads) 的 系统 和 不 支持 内 核 线程 在 操作 系统 内 实现 的 。 
的 系统 间 的 基本 区 别 是 ， 把 操作 系统 经 典 进程 的 两 个 部 分 当 作 不 同 的 实体 来 看 待 ， 从 而 显 式 地 分 离 了 进程 
和 线程 的 概念 。 例 如 ， 支 持 内 核 线程 的 操作 系统 时 分 复 用 线程 (而 不 是 进程 ) 的 执行 。 与 用 户 空间 线程 相 
比 ， 当 现代 进程 中 的 一 个 线程 阻塞 时 ， 其 他 的 线程 仍然 可 以 执行 。 

经 典 进程 和 现代 线程 是 计算 的 基本 活动 单位 ， 而 进程 框架 和 资源 则 是 被 动 单位 。 当 一个 进程 /线程 需 
要 更 多 的 主 存 、 文 件 或 处 理 器 时 间 时 ， 它 从 操作 系统 请 求 资源 。 我 们 先 来 看 一 下 资源 抽象 ， 它 是 虚拟 机 的 
另 一 个 基础 。 
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6.1.3 资源 


资源 是 虚拟 机 的 一 个 基本 元 素 ， 进 程 在 需要 时 可 以 申请 资源 ， 如 果 资 源 不 可 用 ， 则 进程 进入 阻塞 状 
态 。 进 程 通过 系统 调用 来 请 求 抽 象 资源 ， 如 UNIX 的 open()。 如 果 操 作 系 统 决定 为 进程 分 配 抽象 资源 ， 
它 会 更 新 数据 结构 来 反映 分 配 状况 ， 然 后 让 进程 继续 执行 。 如 果 操 作 系 统 不 能 为 进程 分 配 资源 ， 则 进程 补 
阻塞 直到 资源 变 得 可 用 。 资 源 的 分 配 意味 着 资源 被 配置 进 了 进程 的 虚拟 机 。 

例如 ， 如 果 一 个 设备 被 分 配给 一 个 进程 ， 则 相应 的 抽象 设备 被 配置 进 虚拟 机 。 在 虚拟 机 中 ， 轮 询 或 中 
断 是 不 必要 的 ， 因 为 1/0 是 通过 操作 系统 函数 调用 来 完成 的 。 线 程 执行 一 条 虚拟 机 指令 《由 trap 实现 ) 
来 初始 化 ORRE, REER I/O 操作 执行 完成 后 才 返 回 。 

资源 管理 涉及 硬件 设备 〈 见 第 5 章 )、 处 理 器 资源 (第 7 章 )、 抽 象 同 步 资 源 (第 8 章 )、 主 存储 器 
(第 11 章 ) 和 文件 (第 13 章 )。 至 此 ， 你 可 能 会 说 : “这 些 管 理 器 解决 了 所 有 的 硬件 和 重要 的 操作 系统 资 
源 ， 所 以 操作 系统 中 必须 有 所 有 的 资源 管理 器 。” 然 而， 所 有 这 些 资 源 管理 器 共用 一 些 共同 的 行为 ， 这 可 
由 一 个 通用 的 模型 来 描述 。 操 作 系 统 设计 者 有 时 利用 了 这 个 通用 模型 ， 来 创建 可 被 处 理 器 使 用 的 新 的 虚拟 
机 资源 (如 虚拟 终端 、 字 符 串 处 理 机 制 、 专 门 的 算术 处 理 器 、 图 形 引 擎 等 )。 我 们 将 在 6.7 节 中 讨论 通用 
的 资源 管理 器 模型 。 


6.1.4 进程 地 址 空间 


进程 地 址 空间 (address space) 是 线程 可 以 访问 的 地 址 集合 。 通 常情 况 下 ， 这 些 地 址 指 的 是 可 执行 主 
存 位 置 ， 但 是 如 图 6-4 所 示 ， 它 们 也 与 其 他 的 虚拟 机 元 素 相关 联 。 例 如 ， 一 些 操作 系统 允许 程序 员 使 用 进 
程 地 址 空间 内 的 地 址 来 读 写 文件 的 内 容 。 这 可 以 通过 打开 文件 ， 将 文件 内 的 某 一 段 字 节 绑 定 到 地 址 空间 内 
的 某 一 段 地 址 上 来 完成 〈 在 第 12 章 有 详细 的 讨论 )。 也 有 一 些 其 他 的 资源 ， 它 的 接口 是 作为 二 组 字 节 地 址 
来 映射 到 应 用 进程 内 的 〈 如 设备 寄存 器 和 抽象 对 象 )。 存 储 映 射 资源 (memory-mapped resources) 将 它们 的 
接口 映射 到 地 址 空间 内 的 一 组 地 址 上 ， 因 此 ， 可 以 使 用 地 址 来 访问 资源 的 部 件 。 


地 址 空间 地 址 绑 定 可 执行 主 存 
a 





on 





图 6-4 地 址 空间 
TE: 进程 地 址 空间 是 巨大 的 连续 地 址 集合 ， 通 常 是 以 字 节 编 址 的 。 对 任何 可 由 一 组 字 节 地 址 来 引用 的 资源 (如 
可 执行 主 存 )， 它 的 每 个 字 节 编 址 的 元 素 都 与 地 址 空间 内 的 地 址 相对 应 。 这 使 得 进程 /线程 可 以 通过 某 个 字 
节 地 址 获取 信息 或 存储 信息 。 


地 址 空间 提供 了 一 种 统一 的 机 制 ， 使 得 进程 可 以 引用 存储 映射 资源 中 的 字 节 。 如 果 所 有 的 资源 都 是 存 
人 
定 了 资源 接口 是 否 适合 映射 进 地 址 空间 。 
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每 个 资源 管理 器 负责 将 地 址 与 可 编 址 的 资源 元 素 绑 定 (binding) 起 来 。 例 如 ， 存 储 管理 器 将 可 执行 主 
存 块 与 地 址 空间 内 的 地 址 关联 起 来 。 

对 于 存储 映射 资源 ， 操 作 系 统 使 用 地 址 空间 来 控制 进程 对 资源 的 访问 。 如 果 操作 系统 不 将 存储 映射 资 
源 的 接口 绑 定 到 地 址 空间 中 去 ， 则 进程 不 能 使 用 这 个 资源 。 地 址 空间 是 操作 系统 用 来 保护 对 资源 的 访问 的 
机 制 的 一 个 重要 部 分 。 

在 现代 操作 系统 中 ， 每 个 进程 〈 虚 拟 机 ) 有 一 个 固定 大 小 的 地 址 空间 : 在 32 位 计算 机 上 ， 地 址 空间 
通常 是 22 ， 也 就 是 4 GB。Linux 和 Windows 中 的 进程 都 是 32 位 地 址 空间 ， 将 来 的 硬件 和 操作 系统 将 支持 
更 大 的 地 址 空间 (如 64 位 地 址 空间 ) 。 


6.1.5 操作 系统 家 族 


正如 我 们 在 这 一 节 的 开始 所 看 到 的 ， 虚 拟 机 接口 由 硬件 的 用 户 指令 集 和 操作 系统 提供 的 函数 集 来 确 
定 。 例 如 ， 在 Pentium 微 处 理 器 上 的 Linux 接口 和 PowerPC 微 处 理 器 上 的 Linux 接口 就 不 一 样 。 操作 系统 
接口 定义 是 一 项 十 分 重要 的 技术 ， 它 还 要 受到 商业 因素 的 影响 ， 在 技术 方面 ， 要 提供 虚拟 机 广泛 的 特性 
集 ， 使 得 很 容易 地 去 构建 应 用 程序 。 在 商业 方面 ， 为 某 个 操作 系统 编写 的 应 用 程序 越 多 ， 操 作 系统 被 人 们 
使 用 的 可 能 性 就 越 大 。 今 天 ，UNIX 和 Windows 家 族 的 操作 系统 应 用 最 广泛 ， 起 初 使 用 Macintosh OS X 的 
Apple 计算 机 现在 也 使 用 了 UNIX API。 

在 1975 年 ，UNIX 接口 是 十 分 明确 的 ， 然 而 在 1985 年 ， 许 多 不 同 的 团体 都 为 它们 自己 的 操作 系统 定 
义 了 一 组 接口 ， 这 样 不 同 的 接口 在 细节 上 就 出 现 了 差别 。 例 如 ，Berkeley 大 学 软件 发 布 版 定义 的 UNIX 接 
HAI AT&T System V UNIX 提供 的 接口 就 不 一 样 。 到 1990 年 ，IEEE 通过 定义 POSIX.1 操作 系统 接口 解 
决 了 这 个 分 歧 。 从 那 时 开始 ， 大 多 数 的 类 UNIX 操作 系统 都 提供 POSIX 接口 。 

因为 有 几 个 不 同 的 软件 版 本 实现 了 相同 的 接口 ， 习 惯 上 称 提供 了 相同 接口 的 一 组 操作 系统 为 一 个 操作 
系统 家 族 。 今 天 ，Linux、OpenBSD 和 FreeBSD 都 提供 了 相似 的 POSIX.1 API 版 本 ， 都 被 认为 是 UNIX 家 
族 的 一 部 分 。 另 一 方面 ，Windows 操作 系统 家 族 的 每 个 成 员 都 提供 Win32 API 的 一 个 特定 子 集 (表示 不 同 
的 应 用 域 )。 


6.1.6 进程 管理 器 的 任务 


进程 管理 器 使 用 底层 硬件 来 负责 实现 进程 、 线 程 和 资源 抽象 。 特 别 地 ， 进 程 管理 器 必须 控制 处 理 器 和 
其 他 资源 的 活动 ， 使 得 它们 提供 如 下 虚拟 机 函数 : 

m 进程 创建 和 终止 一 一 创建 进程 抽象 。 

a 线程 创建 和 终止 一 一 创建 线程 抽象 。 





BEARERS. 

a 资源 分 配 一 一 创建 资源 抽象 〈 除 设备 、 主 存 和 文件 外 )。 

m 资源 保护 。 

n 与 设备 管理 器 合作 来 实现 [JO， 这 包含 初始 化 操作 、 处 理 中 断 以 及 在 主 存储 器 和 设备 控制 器 间 传输 
信息 。 

M 地 址 空间 的 实现 。 进 程 管理 器 必须 和 存储 管理 器 合作 ， 来 实现 与 物理 主 存 相对 应 的 地 址 空间 部 分 的 
管理 。 


正如 我 们 开始 所 学 的 ， 现 代 进程 是 一 个 框架 ， 基 于 线程 的 计算 可 以 在 框架 内 执行 。 现 代 进 程 由 下 面 几 
部 分 组 成 ; 

R 地 址 空间 (address space)。 执 行程 序 可 以 通过 它 来 引用 可 字 节 编 址 的 资源 。 

m 程序 (program) 用 来 定义 进程 的 行为 。 在 进程 创建 时 要 执行 的 程序 就 被 指定 了 ， 尽 管 在 一 些 操作 
系统 中 ， 可 以 动态 地 变换 进程 要 执行 的 程序 (例如 ，UNIX execve () 系统 调用 )。 当 进程 创建 时 程 
序 被 装载 进 地 址 空间 。 

R 进程 使 用 的 数据 〈data)。 有 的 数据 在 进程 创建 时 就 有 了 ， 其 他 的 数据 与 执行 在 进程 内 的 线程 有 关 。 
在 经 典 进程 内 ， 仅 有 基线 程 来 读 写 数据 ， 但 是 在 现代 进程 内 ， 进 程 内 的 所 有 线程 共享 数据 。 另 外 ， 
默认 情况 下 ， 进 程 内 的 所 有 数据 可 由 所 有 的 线程 来 访问 ， 但 是 每 个 线程 可 以 有 它 自 己 的 私有 数据 。 
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里 线程 执行 需要 的 资源 (resources)。 进 程 被 创建 时 ， 它 具有 资源 的 最 小 集 ， 这 是 由 进程 的 创建 实体 来 
指定 的 〈 父 进程 )。 一 旦 一 个 进程 被 创建 ， 进 程 管理 器 能 在 需要 时 分 配额 外 的 资源 给 进程 。 进 程 创 
建 时 分 配给 进程 的 资源 常常 是 从 父 进程 继承 来 的 (或 对 共享 的 资源 如 打开 的 文件 继承 其 访问 权 )。 
线程 共享 已 分 配给 进程 的 资源 。 
m 进程 标识 号 《process identifier) 来 唯一 地 标识 一 个 进程 。 进 程 标识 号 是 系统 范围 内 可 唯一 标识 进程 
的 名 字 ， 它 可 以 用 来 唯一 地 引用 指定 的 进程 。 
线程 (RERE) 是 现代 进程 框架 内 的 活动 计算 单元 ， 每 个 线程 有 下 面 的 特征 : 
E 线程 执行 所 要 的 主 进程 环境 (进程 框架 )。 
里 仅 可 由 线程 自己 访问 的 数据 。 每 个 线程 都 有 自己 的 栈 来 表示 它 执行 的 动态 上 下 文 (如 它 调用 的 函 
数 、 使 用 的 自动 变量 等 ) 。 
MAR] (thread identifier) ， 在 线程 的 存在 期 间 可 唯一 地 引用 一 个 线程 。 
经 典 进程 具有 现代 进程 和 单个 基线 程 的 特征 组 合 。 
每 个 资源 可 由 系统 范围 内 的 资源 标识 号 (resource identifier) 来 唯一 标识 。 然 而 ， 资 源 的 其 他 特征 依赖 
于 它 的 特有 属性 。 对 每 种 资源 都 定义 了 资源 管理 器 类 型 ， 根 据 资源 的 特性 可 以 创建 每 种 抽象 资源 的 实例 。 
例如 ， 文 件 管理 器 是 管理 系统 上 的 所 有 文件 的 文件 管理 器 代码 的 一 个 实例 。 但 是 ， 对 系统 中 的 每 个 磁盘 驱 
动 器 通常 都 有 一 个 不 同 的 资源 管理 器 。 系 统 最 基本 的 资源 是 处 理 器 和 主 存储 器 。 


6.2 硬件 进程 


操作 系统 是 在 汉 诺 依 曼 计算 机 硬件 接口 上 直接 实现 的 ， 它 导出 了 虚拟 机 接口 。 机 器 硬件 可 以 执行 一 
系列 的 机 器 指令 ， 可 以 将 新 的 地 址 写 进 控制 单元 的 PC 寄存 器 中 ( 即 分 支 指令 ) 来 改变 指令 的 执行 顺序 。 
当 计算 机 启动 时 ， 它 开始 为 存储 器 中 的 程序 (引导 程序 人 口 点 ) 执行 取 指 -执行 周期 ( 见 4.6 节 )。 在 第 4 
章 中 我 们 称 这 个 单线 程 的 执行 为 硬件 进程 (hardware process)。 当 然 ， 硬 件 进 程 只 是 一 个 名 字 ， 它 用 来 表 
示 控 制 单 元 的 重复 活动 ( 取 指令 和 执行 指令 ) 。 

硬件 进程 首先 执行 引导 代码 ， 让 它 装载 操作 系统 软件 然后 执行 。 当 硬件 进程 执行 引导 代码 时 ， 没 有 线 
程 和 进程 的 概念 ， 因 为 操作 系统 还 没有 装载 进 机 器 的 主 存储 器 中 。 

当 引 导 程 序 执行 完 后 ， 操 作 系统 被 加 载 进 来 并 开始 执行 。 操 作 系统 轮 询 系统 中 的 所 有 硬件 部 件 来 进行 
初始 化 ， 并 在 必要 时 初始 化 硬件 。 下 一 步 ， 操 作 系统 初始 化 用 来 实现 虚拟 机 的 数据 结构 。 仅 到 这 个 时 候 ， 
操作 系统 开始 支持 线程 和 进程 ， 并 管理 可 以 由 进程 请 求 的 资源 。 

在 内 核 初始 化 自己 并 加 载 了 n 个 不 同 的 进程 后 ， 进 程 管理 调度 程序 来 决定 它 想 要 硬件 进程 来 执行 哪个 
HERRE. ER 6-5 中 ， 进 程 管理 器 在 完成 初始 化 后 ， 开 始 引导 硬件 进程 来 执行 进程 P, 中 的 线程 。 从 
一 个 进程 /线程 切换 到 另 一 个 进程 或 线程 是 通过 改变 控制 单元 的 PC 来 完成 的 。 有 时 ， 新 的 PC 值 由 调度 程 
序 来 选择 〈 例 如 ， 硬 件 进程 分 支 到 新 线程 的 代码 )。 有 时 是 由 于 trap 指令 的 发 生 而 改变 (促使 硬件 处 理 从 
进程 分 支 到 内 核 )。 有 时 是 由 中 断 的 发 生 〈 例 如 ， 在 进程 内 的 线程 在 执行 时 发 生 了 中 断 ) 而 改变 。 硬 件 进 
程 的 管理 是 多 道 程序 设计 环境 、 进 程 和 线程 抽象 的 基本 ， 现 在 我 们 开始 考虑 创建 经 典 进程 的 细节 问题 。 

在 操作 系统 开始 正常 执行 前 ， 硬 件 进程 初始 化 进程 、 线 程 、 资 源 描述 表 、 设 备 数据 结构 ， 以 及 操作 系 
统 设计 者 需要 的 任何 其 他 数据 结构 。 在 数据 结构 初始 化 后 ， 硬 件 进程 创建 了 一 个 初始 进程 (initial process) 
和 线程 〈 通 常情 况 下 是 一 个 单线 程 的 进程 ， 所 以 叫做 初始 进程 )。 这 是 通过 分 配 和 填充 进程 和 线程 描述 表 
来 完成 的 。 硬 件 进程 开始 执行 以 下 形式 的 空闲 循环 : 


while (TRUE) { 

yield_to_other_threads (---); 

} 
这 称 为 空闲 线程 〈 或 空闲 进程 ) 。 在 整个 系统 中 没有 其 他 的 就 缚 线程 时 ， 它 就 开始 执行 。 即 使 硬件 进程 以 
执行 空闲 循 环 开始 ， 它 很 快 会 被 中 断 使 得 初始 进程 可 以 继续 操作 系统 的 初始 化 。 空 亲 线 程 要 到 系统 中 没有 
其 他 的 工作 时 才 会 运行 。 
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图 6-5 跟踪 硬件 进程 
注 : 硬件 进程 表示 了 CPU 执行 的 机 器 指令 的 序列 。 这 幅 图 解释 了 指令 序列 如 何在 不 同 的 虚拟 机 和 和 操作 系统 间 流 
动 ， 以 实现 多 道 程序 设计 系统 。 


6.3 虚拟 机 接口 


理想 情况 下 ， 虚 拟 机 和 底层 的 硬件 提供 相同 的 指令 集 。 然 而 ， 有 些 指令 (如 设备 1/O) 被 操作 系统 用 
来 管理 资源 共享 。 例如， 如 果 设 备 IMO 指令 可 以 在 用 户 模式 下 执行 ， 则 任何 程序 都 可 以 读 写 磁 盘 设备 的 任 
何 部 分 ， 那 么 操作 系统 实现 文件 共享 和 保护 模型 就 比较 困难 。 硬 件 对 指令 进行 了 区 分 ， 分 为 用 户 模式 指令 
和 特权 指令 ， 用 户 模式 的 指令 被 使 用 不 会 影响 资源 共享 模型 ， 特 权 指 令 在 核心 模式 下 使 用 。 所 有 的 虚拟 机 
操作 如 需要 执行 特权 指令 则 由 操作 系统 函数 来 实现 。 这 意味 着 虚拟 机 接口 有 两 种 指令 ， 用 户 模式 指令 和 操 
作 系 统 函 数 。 实 现 这 个 接口 的 策略 是 ， 确 保 当 一 个 进程 执行 由 操作 系统 函数 实现 的 虚拟 机 指令 时 ， 系 统 截 
取 硬 件 执行 并 调用 操作 系统 函数 。Trap 指令 很 好 地 处 理 了 这 种 情况 (LE 6-6)。 用 户 模式 trap 指令 将 
CPU 切换 到 核心 模式 ， 然 后 分 支 到 操作 系统 函数 入口 点 。 当 一 个 应 用 程序 执行 的 操作 与 特权 指令 相关 时 ， 
经 典 进程 会 执行 带 参数 的 trap 指令 ， 并 从 操作 系统 的 系统 调用 表 中 选择 一 个 函数 来 执行 。 

这 种 技术 允许 操作 系统 定义 一 个 虚拟 机 接口 ， 它 包含 了 所 有 的 用 户 模式 指令 ， 包 含 trap 指令 ， 还 有 
所 有 的 系统 调用 。 这 里 给 出 一 个 虚拟 机 接口 如 何 工作 的 例子 ， 假 定 包含 C 代 码 的 应 用 程序 如 下 ; 


a=b+ce; 
pid = fork (); 


经 过 编译 ， 机 器 用 户 指令 如 下 : 


//a=b+e;} 


load Rl, b - 
load R2, ¢ 
add Rl, R2 


store R1, a 
// now do the system call 
trap sys_fork 
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图 6-6 ”虚拟 机 接口 
TE: 当 处 理 器 处 于 用 户 模式 时 ， 完 全 的 虚拟 机 接口 是 由 硬件 可 以 执行 的 一 组 指令 来 定义 的 。trap 指令 扩展 了 接 
口 ， 使 得 虚拟 机 指令 包含 了 操作 系统 调用 接口 的 所 有 函数 。 


应 用 程序 中 的 所 有 指令 是 用 户 模式 指令 ， 并 且 直 接 在 硬件 之 上 执行 。 概 念 上 ， 操 作 系统 虚拟 机 通过 操 
作 系 统 来 将 用 户 指令 传递 给 硬件 。 然 而 ，fork () 虚拟 机 指令 将 由 操作 系统 函数 来 执行 而 不 是 由 硬件 。 程 
序 员 说 明 这 样 的 虚拟 机 指令 为 函数 调用 。 编 译 器 和 链接 器 将 目标 函数 调用 链接 到 包含 trap 指令 的 系统 调 
用 存根 程序 。 例 如 ，fork O 函数 调用 被 链接 到 包含 trap sys_fork 机 器 指令 的 系统 调用 存根 程序 中 (sys. 
fork 是 系统 调用 表 的 索引 号 )。 

当 进 程 在 虚拟 机 上 执行 时 ， 它 使 用 类 似 于 表 6-1 所 示 的 机 器 指令 。 编 译 过 的 代码 仅 包含 了 可 直接 在 硬 
件 上 执行 的 机 器 指令 。 当 进程 需要 执行 操作 系统 任务 时 ， 机 器 指令 是 一 条 关联 到 某 个 操作 系统 函数 的 trap 
指令 。 虚 拟 机 接口 支持 冯 , 诺 依 曼 计算 机 上 许可 的 相同 种 类 的 操作 ， 尽 管 特权 指令 集 是 嵌入 在 操作 系统 调 


用 中 的 。 
表 6-1 虚拟 机 指令 集 


CO 
ALU 指令 


load 
store 
add 
subtract 
logical AND 


控制 单元 指令 


branch 
conditional branch 
procedure call 








trap 指令 (调用 OS 函数 ) 


create process () 
terminate process () 
open file () 
close file () 
request_resource () 
release resource () 
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操作 系统 的 函数 实现 与 其 他 软件 一 样 包 含 算法 与 数据 结构 的 集合 。 操 作 系 统 组 件 使 用 了 Parnas 抽象 数 
据 类 型 原理 [Parnas，1972] (也 被 用 于 面向 对 象 程序 设计 ) 来 建立 : 软件 模块 导出 足够 的 信息 让 其 他 程序 
调用 其 函数 ,但 是 隐藏 函数 实现 的 细节 。 为 了 让 整个 操作 系统 接口 公开 化 ， 不 同 公司 可 以 对 相同 操作 系统 
接口 创建 不 同 的 实现 。POSIX API 就 是 一 个 公开 化 操作 系统 接口 的 例子 。Linux 和 Free BSD 都 导出 了 
POSIX API, 但 是 它们 的 内 部 实现 又 是 不 同 的 。 一 般 来 说 ， 实 现 算法 和 数据 结构 的 选择 取决 于 API 本 身 即 
设计 者 所 作 的 设计 决策 。 

Linux 2.0.36 版 本 的 内 核 提 供 了 166 个 系统 调用 接口 函数 (意味 着 trap RA 166 FAO). MA 
2.4.x 的 内 核 已 经 增长 并 超过 了 200 个 函数 。 相 比 之 下 ，Windows NT/2000/XP 操作 系统 提供 了 2000 个 
Win32 API 函数 。Windows 接口 的 接口 函数 比较 多 ， 因 为 桌面 窗口 系统 是 操作 系统 的 一 部 分 。Windows 
NT/2000/XP 提供 的 操作 系统 调用 接口 要 比 Linux 多 一 个 数量 级 ，Windows 的 实现 要 比 Linux 的 实现 大 得 
AMARA. GAM, Linux 2.4 版 本 大 约 有 250 万 行 代码 ， 大 多 数 是 用 C EM. Windows NT 版 本 4 大 约 有 . 
2500 万 行 代码 一 一 比 Linux 多 一 个 数量 级 。 上 述 估计 都 包含 了 可 以 被 配置 到 特定 机 器 中 的 所 有 设备 的 驱动 
程序 代码 。 表 6-2 提供 了 Linux 2.0.36 版 本 系统 调用 的 几 个 例子 ， 你 也 可 以 阅读 Linux 源 代码 来 看 看 系统 
调用 的 全 部 列表 。 


表 6-2 一 些 Linux 系统 调用 



































系统 调用 AK pe BR 系统 调用 号 
exit () sys_exit () 1 
fork () sys_fork () 2 
read () sys_read () 3 
write () sys_write () 4 
open () sys_open () 5 
close () sys close () 6 
execve sys_execve () 11 
getuid () sys_getuid 24 
fstat () sys_fatat () 28 
ioctl () sys_ioctl (} 54 
gettimeofday () sys_gettimeofday () ` 78 
6.4 进程 抽象 


进程 管理 器 创建 了 多 个 进程 可 以 共存 的 环境 ， 每 个 进程 都 有 自己 的 虚拟 机 。 当 硬件 进程 开始 执行 操作 
系统 代码 时 ， 它 会 执行 一 个 算法 ， 并 将 硬件 进程 从 一 个 上 下 文 (context) (虚拟 机 ) 切换 到 另 一 个 上 下 文 
中 。 在 操作 系统 控制 处 理 器 时 ， 这 些 上 下 文 切换 就 会 发 生 。 当 进程 /线程 使 用 了 系统 调用 (执行 trap 指 
令 ) 和 设备 中 断 发 生 时 ， 操 作 系统 就 得 到 了 控制 权 。 例 如 ， 图 6-7 解释 了 图 6-5 中 的 最 初 9 个 上 下 文 切换 ， 

1) 加 载 器 分 支 转移 到 操作 系统 ， 操 作 系 统 进行 初始 化 。 

2) 进程 管理 器 切换 到 Pi 。 

3) Pi 进行 系统 调用 ， 最 后 分 支 到 执行 上 下 文 切换 的 进程 管理 器 。 

4) 进程 管理 器 切换 到 P, 。 

5) Po 进行 系统 调用 。 

6) 进程 管理 器 切换 到 P,。 

7) 发 生 了 中 断 。 

8) 中 断 处 理 程序 跳 转 到 上 下 文 切换 算法 。 

9) 进程 管理 器 切换 到 P,。 
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10) 等 等 。 

每 个 进程 做 程 可 以 引用 存储 在 与 其 地 址 空间 相关 联 的 主 存 中 的 
指令 (存储 管理 器 负责 将 物理 地 址 与 地 址 空间 相关 联 )。 这 意味 着 上 
下 文 切换 仅 可 以 用 一 条 或 多 条 的 特权 指令 来 完成 。 进 程 管理 器 负责 
在 进程 /线程 间 进 行 上 下 文 切换 。 

当 创建 一 个 进程 时 ， 进 程 管理 器 算法 创建 数据 结构 ( 称 为 进程 
描述 表 ) 来 保存 需要 管理 的 进程 的 所 有 细节 。 进 程 管理 器 然后 检查 
可 执行 文件 (例如 ，UNIX 中 的 a. out 文件 或 Windows 中 的 a.exe 文 
件 ) 来 确定 应 该 加 载 什么 程序 到 地 址 空间 中 ， 然 后 创建 地 址 空间 ， 
并 将 程序 地 址 绑 定 到 地 址 空间 中 去 。 进 程 管理 器 接着 为 进程 添加 所 
有 其 他 需要 的 虚拟 机 资源 。 在 这 个 时 候 ， 进 程 管理 器 开始 创建 基线 
程 使 得 程序 可 以 在 进程 框架 内 执行 。 在 一 个 支持 经 典 进程 的 操作 系 





统 中 ， 进 程 管理 器 通过 设置 进程 描述 表 域 (表示 线程 执行 的 相关 域 ) 图 6.7 上下文 切 换 

来 完成 这 些 操作 。 在 一 个 支持 现代 进程 的 操作 系统 中 ， 为 基线 程 创 ” 注 ; 进程 钱 程 上 下 文 表示 特定 进 

建 单独 的 线程 描述 表 。 程 钱 程 执行 时 处 理 器 硬件 的 状 
进程 描述 表 (process descriptor) (也 称 为 进程 控制 块 、 任 务 控制 态 。 一 次 上 下 文 切 换 是 硬件 进 

块 、 任 务 结构 ， 还 有 不 同 的 其 他 名 字 ) 是 操作 系统 用 来 管理 进程 的 程 挂 起 一 个 程序 的 执行 并 开始 

数据 结构 的 。 那 么 ， 进 程 描述 表 中 应 该 保存 哪些 信息 呢 ? 一 般 来 说 ， 另 一 个 程序 的 执行 的 活动 。 


操作 系统 算法 必须 要 有 足够 的 信息 来 标识 进程 (进程 描述 表 包 含 了 

进程 标识 号 )， 并 要 确定 创建 进程 的 用 户 和 请 求 创建 进程 的 进程 等 。 

表 6-3 描述 了 经 典 进程 描述 表 中 使 用 的 几 个 域 , 标 有 “x*” 的 域 与 线程 的 执行 有 关 ， 是 经 典 进程 描述 表 的 
一 部 分 。 











表 6-3 ”进程 描述 表 
域 | 描 述 
内 部 进程 名 字 进程 的 一 个 内 部 名 字 ， 在 操作 系统 代码 中 使 用 ， 如 一 个 整数 ， 或 者 表 索 引号 
* 状 态 基线 程 的 当前 状态 
所 有 者 一 个 进程 有 一 个 所 有 者 (通过 所 有 者 的 标识 符 来 识别 ， 如 登录 的 名 字 )， 控 制 块 中 包含 
一 个 域 来 存储 所 有 者 的 标识 符 
“执行 统计 时 间 累 计 、 启 动 时 间 等 
线程 指向 与 本 进程 相关 的 线程 列表 
相关 进程 列表 指向 该 进程 的 父 、 兄 弟 进程 列表 
子 进程 列表 指向 该 进程 的 子 进程 列表 
地 址 空间 地 址 空间 和 绑 定 描述 
资源 指向 该 进程 拥有 的 资源 列表 ， 每 个 资源 类 型 描述 了 资源 单位 数目 及 资源 标识 
"iR 基线 程 的 栈 在 主 存 的 地 址 


进程 管理 器 也 在 描述 表 中 设置 一 些 域 来 反映 哪些 资源 已 经 被 分 配给 了 进程 。 例 如 ， 当 创建 UNIX 进程 
时 ， 如 果 父 进程 在 创建 子 进程 之 前 打开 了 文件 ， 则 子 进程 继承 对 文件 的 访问 权 。 在 另 一 方面 ，Windows 采 
取 了 更 一 般 的 方法 ， 对 分 配给 进程 的 每 个 抽象 资源 ， 都 有 -- 个 丘 柄 (handle) 与 它 相关 联 。 这 意味 着 父 进 
程 对 其 所 有 的 资源 有 大 量 句柄 。 父 进程 在 创建 子 进程 时 ， 可 以 将 这 些 句 柄 的 子 集 给 予 子 进 程 (参见 cre 
ateProcess () 的 有 关系 统 文档 )。 例 如 ， 父 进程 可 以 仅 给 予 进程 其 所 有 打开 的 文件 句柄 ， 其 他 资源 的 句柄 
并 不 让 它 使 用 。 这 和 UNIX 系统 的 策略 相似 。 无 论 什么 时 候 存储 映射 资源 被 分 配给 虚拟 机 (进程 )， 其 组 
件 也 被 绑 定 到 地 址 空间 中 。 

在 创建 进程 时 ， 操 作 系统 为 每 个 进程 创建 了 进程 描述 表 ， 并 在 进程 终止 时 释放 进程 描述 表 。 在 大 多 数 
操作 系统 中 ， 进 程 描述 表 是 从 进程 描述 表 结 构 的 静态 数组 中 分 配 的 ， 这 是 因为 操作 系统 试图 避免 使 用 动态 
数据 结构 分 配 〈 避 兔 用 完 主 存 )。 数 组 的 长 度 确定 了 操作 系统 在 任意 时 刻 可 以 支持 的 进程 最 大 数目 。 
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对 于 进程 描述 表 也 有 其 他 的 一 些 重要 观点 : 尽管 软件 工程 的 实践 经 验 告诉 我 们 仅 能 由 操作 系统 的 进程 
管理 器 部 分 来 读 / 写 进程 描述 表 , 但 是 操作 系统 很 少 遵循 这 个 原则 。 这 是 因为 在 考虑 性 能 与 可 维护 性 时 ， 
操作 系统 的 设计 更 强调 性 能 。 软 件 模块 设计 方法 中 隐藏 详细 信息 的 做 法 并 没有 在 操作 系统 内 部 设计 中 贯 
彻 。 即 使 进程 描述 表 主 要 是 由 进程 管理 器 来 创建 和 管理 的 ， 但 操作 系统 的 其 他 部 分 可 以 查询 和 改变 进程 描 
述 表 中 的 一 些 域 。 





示例: Linux 进程 描述 天 ~ 
Linux 内 核 管理 大 量 任务 (task) 的 执行 ， 每 个 任务 由 struct task_struct 内 核 数据 结构 来 描述 。 所 有 
比 Linux 2.2.0 早 的 版 本 都 将 一 个 内 核 任务 与 一 个 经 典 进 程 相关 联 (2.2.0 之 后 的 新 版 本 实现 了 现代 进程 
和 线程 ) 。 当 创建 一 个 进程 时 ，struct task_struct 数据 结构 的 实例 被 初始 化 用 来 保持 有 关 进 程 的 所 有 信 
息 。 下 面 是 Linux 2.2.18 版 本 的 进程 描述 表 的 代码 段 (在 这 个 代码 段 中 ， 为 了 简化 讨论 ， 出 现 的 “…” 表 
示 忽 略 了 相关 的 一 些 域 ): 


struct task_struct { 
/* these are hardcoded - don’t touch */ 
volatile long state; /* -1 unrunnable, 0 runnable, >0 stopped */ 
int sigpending; 
struct task_struct *next_task, *prev_task; 
struct task_struct *next_run, *prev_run; 
pid_t pid; 
pid_t pgrp; 
V 
* pointers to (original) parent process, youngest child, 
* younger sibling, older sibling, respectively. ... 
*/ 
struct task_struct *p opptr, *p_pptr, *p_cptr, *p ysptr, *p_osptr; 


/* mm fault and swap info: ...*/ 
/* process credentials */ 
uid_t uid, ...; 
gid_t gid,...; 
/* limits */ 
/* file system info */ 
/* open file information */ 
/* memory management info */ 
/* signal handlers */ 
/* Thread group tracking */ 
a 


struct task_struct 数据 结构 拥有 的 域 超过 了 50 个 ， 除 了 上 述 这 些 域 之 外 ， 还 有 其 他 的 域 没 显示 出 
来 。 任 务 描述 表 中 的 第 一 个 域 为 state 域 ， 它 为 一 个 整 型 数字 ， 表 示 了 进程 的 当前 状态 (图 6-11 中 展示 了 
所 有 可 能 的 状态 )。pid 域 和 pgrp 域 分 别 为 进程 和 进程 组 的 唯一 标识 符 。 

UNIX 进程 可 从 操作 系统 或 从 其 他 的 进程 接收 信号 (如果 你 对 UNIX 信号 不 熟悉 ， 请 看 本 章 末 的 第 一 
个 上 机 练习 )。sigpending 域 描述 了 发 送 给 进程 的 任何 信号 ， 并 在 适当 的 时 候 中 断 进程 的 正常 执行 。 

struct task_struct 中 的 next_task、prev_task、next_run 和 prev_run 用 来 将 进程 描述 表 组 织 成 一 个 
链表 。 例 如 ， 调 度 器 使 用 这 些 域 来 将 任务 结构 插入 到 等 候 使 用 处 理 器 的 链表 中 。 

接 下 来 指向 任务 结构 的 一 组 指针 表示 了 进程 间 的 关系 : 创建 这 个 进程 的 原始 的 祖先 (p-opptr)， 进 程 
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的 当前 父 进程 ， 在 原始 祖先 不 存在 时 使 用 (p-pptr)， 进 程 的 最 年 轻 〈 最 近 ) TEE (p-cptr)， 进 程 的 下 
一 个 (下 一 个 最 近 ) 兄弟 (pysptr) 和 进程 的 上 一 个 (上 一 个 最 近 ) 兄弟 (p-osptr)。 这 些 域 用 来 记录 进 
程 间 的 层次 关系 ， 用 于 获取 层次 成 员 所 使 用 的 资源 。 
如 数据 结构 代码 段 所 显示 的 ， 任 务 结构 也 包含 了 用 户 标识 (uid) 和 组 标识 (gid)， 这 些 表示 了 创建 
进程 的 用 户 的 身份 。 
eee eee 





| 一 
示例 : Windows NT/2000/XP 进程 描述 表 

Windows NT/2000/XP 的 进程 管理 器 支持 现代 进程 和 线程 。 进 程 描 述 表 表示 现代 进程 (并 不 是 线程 )。 

Windows NT/2000/XP 的 源 代 码 并 没 公开 ,但 是 Solomon 和 Russinovich [2000] 提供 了 进程 描述 表 的 细节 

性 的 讨论 。 正 如 在 3.3 节 所 提 到 的 ， 内 核 分 为 NT 执行 体 和 NT 内 核 。 当 创建 一 个 进程 时 ，NT 执行 体 中 

初始 化 了 一 个 数据 结构 ， 并 且 NT 内 核 也 初始 化 了 一 个 相关 数据 结构 (NT 执行 体 数据 结构 称 为 EPROCESS 

块 ， 包含 了 称 为 KPROCESS 块 或 PCB 的 NT 内 核 数据 结构 ) ， 见 图 6-8。 


EPROCESS 
KPROCESS 


uint32 KernelTime; 
uint32 UserTime; 


byte State; 


void *UniqueprocessId; 





图 6-8 Windows NT 进程 描述 表 
注 : Windows NT 操作 系统 是 在 NT 内 核 和 NT 执行 体 中 实现 的 ， 它 们 是 操作 系统 的 两 个 独立 组 件 。 进 程 描 述 表 
的 一 部 分 是 在 NT 内 核 中 实现 的 ， 另 一 部 分 是 在 NT 执行 体 中 实现 的 。 由 NT 内 核 管 理 的 进程 描述 表 部 分 涉 
及 对 象 管理 、 中 断 处 理 和 线程 调度 。NT 执行 体 处 理 进程 的 其 他 方面 。 e 


NT 内 核 提供 了 基本 的 操作 系统 服务 ， 如 对 象 管理 、 中 断 处 理 和 线程 调度 。 这 些 算法 是 在 NT 内 核 中 
实现 的 ， 由 NT 内 核 管理 的 进程 描述 表 部 分 在 struct EPROCESS 中 声明 为 struct_KPROCESS Pob 域 。 正 如 在 
图 中 所 显示 的 ，NT 内 核 记录 了 进程 中 所 有 线程 在 核心 模式 下 运行 的 时 间 总 量 (uint32 KernelTime 域 ) 和 
在 用 户 模式 下 运行 的 时 间 总 量 (uint32 UserTime 域 ) 。 在 EPROCESS 块 中 还 有 另 一 个 域 ，voidx UniquePro- 
cessId， 这 是 在 整个 系统 范围 内 唯一 的 进程 标识 符 。 

NT 内 核 被 设计 成 订 以 通过 操纵 进程 状态 来 控制 在 进程 内 执行 的 线程 组 ， 因此 在 进程 描述 表 中 有 一 个 
byte State 域 。 和 Linux 的 进程 描述 表 一 样 ，FPROCESS 块 包含 了 管理 地 址 空间 的 域 、 协 调 线程 执行 的 域 、 
跟踪 分 配给 进程 的 资源 的 域 及 保护 和 共享 任务 资源 的 域 。 

来 自 Solomon 和 Russinovich [2000] 的 第 6 章 中 的 信息 是 Windows 进程 描述 表 的 最 完全 描述 ， 它 并 没 
有 受 软件 许可 证 保护 。 

ER 


6.5 线程 抽象 


在 支持 现代 进程 和 线程 的 系统 中 ， 进 程 管理 器 将 进程 的 动态 执行 与 进程 的 静态 环境 分 离开 了 。 当 创建 

一 个 现代 进程 时 ， 同 时 也 创建 了 基线 程 。 当 进程 中 的 所 有 线程 终止 时 ， 进 程 也 被 删除 了 。 
线程 管理 算法 是 创建 和 管理 线程 的 进程 管理 器 的 一 部 分 。 一 旦 一 个 线程 被 创建 ， 它 将 存在 于 不 同 的 状 
态 中 (状态 的 细节 在 6.6 节 描述 )。 一 般 来 说 ， 线 程 的 状态 反映 了 它 在 操作 系统 中 的 逻辑 活动 状态 。 例 如 ， 
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线程 可 能 正在 等 候 资 源 或 者 正在 运行 。 管 理 线程 的 主要 任务 是 : 

里 创建 /销毁 线程 。 

时 分 配 线程 特有 的 资源 。 

n 管理 线程 上 下 文 切换 (包括 调度 )。 

进程 管理 器 中 含有 相应 的 算法 来 完成 这 些 任务 并 管理 中 央 线 程 描述 表 数 据 结构 。 线 程 描述 表 (thread 
descriptor) 是 操作 系统 用 来 管理 线程 的 数据 结构 。 

线程 所 使 用 的 大 多 数 资源 是 分 配给 相关 的 进程 而 不 是 线程 的 。 然 而 ， 也 有 一 些 资源 对 线程 来 说 是 自 有 
的 。 例 如 ， 线 程 的 栈 是 线程 自 有 的 ， 必 须 被 初始 化 并 绑 定 到 进程 地 址 空间 中 。 类 似 地 ， 线 程 的 私有 存储 区 
也 是 线程 自 有 的 ， 也 必须 绑 定 到 地 址 空间 中 。 表 6-4 描述 了 一 般 的 线程 描述 表 中 使 用 的 一 些 域 ， 这 些 域 也 
出 现在 经 典 进程 描述 表 中 。 








表 6-4 ”线程 描述 表 
m 描述 
状态 | ”线程 的 当前 状态 
执行 统计 时 间 累 计 、 开 始 时 间 等 
进程 指向 与 线程 相关 联 的 进程 描述 表 
相关 线程 列表 指向 线程 的 父 线程 / 子 线程 /兄弟 线程 列表 
R 主 存储 器 中 基线 程 栈 的 位 置 
其 他 资源 指向 线程 相关 的 资源 





示例 : Linux 线程 描述 表 

POSIX API 定义 “POSIX 线程 ”是 一 组 如 下 系统 调用 的 集合 : 

E pthread create () 

E pthread exit () 

E pthread self () 

E pthread key_create () 

有 一 个 用 户 空间 库 实现 了 所 有 的 线程 调用 。 在 老 的 版 本 中 ， 线 程 函数 由 库 实现 而 不 是 由 操作 系统 实 
BL. 在 Linux 2.2.0 版 本 和 更 新 的 版 本 中 ， 线 程 接口 仍然 是 由 库 实 现 的 ， 但 是 线程 是 在 操作 系统 中 实现 的 。 

在 新 的 内 核 中 ， 每 个 任务 与 线程 相关 而 不 是 与 经 典 进程 相关 。 这 样 需 要 修改 进程 管理 器 算法 使 得 任务 
间 可 以 共享 资源 : 如 设备 、 文 件 和 地 址 空间 ， 同 时 ， 也 能 为 单个 的 任务 分 配 特定 线程 的 资源 。 内 核 任务 仍 
然 是 由 struct task_struct 数据 类 型 来 描述 (有 一 些 修 改 )。 

在 Linux 内 核 中 ， 进 程 的 基线 程 进程 描述 表 (base thread process descriptor) 基本 上 和 经 典 进程 描述 表 
是 一 样 的 。 因 为 许多 应 用 进程 是 经 典 进程 ， 所 以 实现 仍然 是 有 效 的 。 然 而 ， 如 果 pthread 接口 被 用 来 在 进 
程 中 增加 线程 ， 则 每 个 线程 都 要 创建 一 个 struct task_struct 数据 结构 。 新 的 struct task_struct 和 基线 
程 包含 了 相同 的 进程 框架 信息 〈 它 仅仅 是 基线 程 的 一 个 拷贝 ) 。 

在 内 核 中 ， 有 sys_clone () 和 sys_fork () 系统 函数 (分 别 由 线程 clone O 和 经 典 进程 fork () 系 
统 调用 来 调用 )。sys_fork O 只 有 一 条 语句 ， 用 来 调用 内 核 函 数 do_fork ()。do_fork () 的 参数 与 特定 
的 fork () WFAA. sys clone () 有 4 条 语句 ， 最 后 一 条 也 是 用 来 调用 内 核 函数 do_fork ()。 线 程 和 经 
典 进程 间 的 所 有 区 别 都 封装 在 do_fork () 函数 中 (不 到 200 行 代码 )。 在 修订 的 struct task_struct 结构 
中 ， 基 本 的 区 别 就 是 增加 了 处 理 线程 自 有 资源 ( 栈 和 局 部 线程 存储 区 ) 的 域 。 

' : a | 








E 
示例 : Windows NT/2000/XP 线程 描述 表 
Windows EPROCESS 进程 描述 表 的 KPROCESS 部 分 包含 了 一 个 域 struct LIST ENTRY ThreadListHead， 它 是 
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一 组 线程 描述 表 ( 称 为 ETHREAD 结构 ) ， 见 图 6-9 [Solomon and Russinovich, 2000]. ETHREAD 将 KTHREAD 44 
构 作 为 它 的 一 个 域 。 就 像 进程 描述 表 一 样 ， 
NT 执行 体 管理 ETHREAD 结构 的 内 容 ，NT 内 核 
管理 KTHREAD 结构 的 内 容 。ETHREAD 包含 了 下 
列 域 ， 

m 创建 时 间 

m 相关 的 进程 标识 

图 入口 点 地 址 

KTHREAD 包含 了 一 些 域 ， 如 : 

wo 用 户 时 间 

m 内 核 时 间 

m 栈 的 细节 

加 调度 信息 





图 69 Windows NT 线程 描述 表 
在 Windows NT/2000/XP 中 ，NT 内 核实 注 : Windows NT 线程 描述 表 的 实现 方式 和 进程 描述 表 的 


现 线程 调度 ， 所 以 调度 信息 保存 在 KTHREAD 结 实现 方式 相同 。 例 如 ，KTHREAD 结构 由 NT 内 核 管理 ， 
构 中 ， 而 不 是 在 ETHREAD 结构 中 。 它 包含 了 操作 系统 调度 线程 执行 时 需要 的 信息 。 

ois 
6.6 状态 图 


我 们 已 经 学 习 了 进程 和 线程 的 数据 结构 ， 现 在 可 以 更 详细 地 来 考虑 算法 问题 。 在 一 个 进程 /线程 被 创 
建 后 ， 操 作 系统 使 用 进程 描述 表 来 记录 进程 /线程 的 信息 。 可 以 将 进程 管理 器 想像 为 运行 进程 的 个 人 助理 : 
例如 ， 如 果 一 个 人 ( 称 为 首长 ) 想 要 一 个 助手 来 安排 交通 问题 ， 助 手 需要 知道 首长 当前 的 位 置 。 相 似 地 ， 
如 果 操 作 系 统 想 要 删除 进程 的 话 ， 它 需要 知道 进程 描述 表 存储 在 哪个 链表 中 。 

在 现实 世界 中 ， 个 人 助理 需要 保持 概括 了 首长 的 当前 状态 的 单 变量 的 描述 。 例 如 ， 如 果 有 一 个 约会 即 
将 到 来 ， 但 首长 正在 睡觉 ， 个 人 助理 有 必要 在 约会 时 间 到 之 前 将 首长 叫 醒 。 通 常 ， 状 态 (如 首长 是 睡 着 
的 ) 可 以 通过 分 析 描述 表 中 的 域 来 推断 出 来 。 然 而 ， 在 进程 管理 器 中 ， 习 惯 使 用 一 个 状态 (state) 变量 来 
描述 进程 /线程 的 状态 。 状 态 变量 用 特定 的 值 (如 “进程 处 于 阻塞 状态 ”或 “进程 当前 正在 使 用 处 理 器 ") 
来 表示 进程 /线程 的 状态 。 

状态 图 (state diagram) 表示 了 线程 在 不 同时 间 下 所 处 的 不 同 状态 ， 以 及 在 操作 系统 中 可 能 出 现 的 状 
态 变换 (tiansitions)。 进 程 管理 器 负责 改变 进程 /线程 
的 状态 ， 例 如 ， 通 过 将 处 理 器 分 配给 进程 或 线程 ， 或 
阻塞 进程 /线程 直到 资源 被 分 配给 它 ， 或 通知 进程 / 线 mer 
程 准 备 使 用 处 理 器 。 WR 

图 6-10 是 在 一 个 假定 的 系统 中 进程 /线程 状态 图 
的 简单 例子 。( 这 个 状态 图 是 故意 简化 的 ， 使 得 你 可 以 
看 出 如 何 用 状态 图 来 设计 进程 管理 器 ， 本 章 后 面 还 会 
对 这 幅 图 进一步 细 化 。) 在 这 个 状态 图 中 ， 一 个 进程 / 
线程 可 以 处 于 三 种 状态 中 的 任 一 种 一 运行、 就 结 或 ax ry 
阻塞 。 如 果 进 程 /线程 涉及 某 些 活动 ， 进 程 管理 器 就 会 图 6-10 ”进程 状态 
改变 进程 /线程 状态 ， 如 图 6-10 中 标记 所 指示 的 那样 。 注 : 最 基本 的 进程 线程 状态 图 有 三 个 状态 :运行 、 
例如 ， 如 果 进 程 / 线 程 处 于 运行 (running) 状态 ， 它 发 就 绪 和 阻塞 。 处 于 运行 状态 的 进程 正在 使 用 处 
生 了 对 资源 的 请 求 ， 但 资源 不 可 用 ， 进 程 管理 器 则 挂 理 器 ， 处 于 就 绪 状 态 的 进程 在 等 候 处 理 器 ， 处 
起 进程 /线程 的 执行 直到 资源 可 用 为 止 ， 并 将 进程 / 线 于 阻塞 状态 的 进程 正在 等 候 一 个 不 可 用 的 资源 ， 
程 的 状态 变 为 阻塞 (blocked) 。 当 -一 个 进程 p, 已 经 分 当 它 分 配 到 资源 以 后 会 解除 阻塞 状态 。 


运行 


请 求 调度 


Start 
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配 主 存 并 被 创建 stort 变换 发 生 ， 将 p; 置 为 就 绪 (ready) RE, RERE p; 等 待 CPU 调度 程序 将 处 理 
器 分 配给 它 。 . 

进程 管理 器 使 用 状态 图 来 确定 提供 给 进程 (进程 /线程 ) 的 服务 类 型 ， 如 果 进 程 处 于 就 绪 状 态 ， 它 竞 
争 处 理 器 的 使 用 。 处 于 就 绪 状 态 的 进程 在 分 配 到 处 理 器 资源 时 会 转换 到 运行 状态 。 如 果 进程 处 于 运行 状 
态 ， 当 它 完成 执行 后 ， 进 程 管理 器 会 释放 进程 所 拥有 的 资源 并 销毁 进程 。 同 样 ， 处 于 运行 状态 的 进程 可 能 
会 请 求 资源 一 一 例如 ， 请 求 IO 操作 。 当 处 于 运行 状态 的 进程 请 求 资源 时 ， 如 果 它 不 用 等 待 就 可 以 获得 资 
源 ， 则 进程 被 允许 持续 在 运行 状态 下 执行 。 和 否则， 进程 管理 器 剥夺 进程 对 CPU 的 使 用 权 ， 并 将 进程 置 为 
阻塞 状态 ， 然 后 通知 资源 管理 器 此 进程 正在 等 候 资 源 。 操 作 系统 然后 调用 调度 程序 ， 并 将 处 理 器 分 配给 处 
于 就 绪 状 态 的 下 一 个 被 选择 的 进程 。 处 于 阻塞 状态 的 进程 ， 当 资源 管理 器 为 它 分 配 了 所 请 求 的 资源 时 ， 进 
程 会 变换 到 就 绪 状 态 。 这 样 ， 进 程 又 可 以 竞争 使 用 CPU 了 。 





示例 : UNIX 状态 图 
在 UNIX 系统 中 ， 内 核 假定 的 是 经 典 进程 模型 ， 所 以 它 使 用 的 是 进程 状态 图 而 不 是 线程 状态 图 。 
UNIX 中 的 进程 可 能 处 于 下 列 6 种 状态 之 一 : running，runnable，uninterruptible sleep, sleeping, 
traced 或 stopped, zombie ( 见 图 6-11 的 状态 转换 图 )。 一 个 进程 被 创建 后 处 于 runnable 状态 ， 表 示 它 已 
经 创建 并 能 被 调度 执行 。 当 它 开 始 执行 时 ， 它 的 状态 从 runnable 变 成 了 running, 


请 求 


zombie 


被 父 进程 等 待 Done 


请 求 






running 







uninterruptible 
sleep 
runnable 


sleeping traced or 
stopped 


图 6-11 UNIX 状态 转移 图 
HE: UNIX 进程 可 能 处 于 下 图 中 的 6 种 状态 之 一 。 被 阻塞 进程 可 能 由 于 I/O WR (sleeping) 或 等 候 其 他 资源 
(uninterruptible sleep) 而 被 阻塞 。traced 或 stopped 状态 的 进程 因为 请 求 系统 调用 而 被 挂 起 ， 因 此 其 父 
进程 可 以 检查 调用 系统 调用 时 的 现场 。zombie 状态 是 子 进 程 的 结束 状态 ， 但 是 它 的 进程 描述 表 还 没有 释放 
直到 父 进程 知道 其 结束 为 止 。 


如 果 一 个 running 状态 的 进程 发 出 一 个 请 求 资 源 的 系统 调用 ， 如 果 资 源 可 以 立即 分 配给 进程 ， 则 该 进 
程 还 继续 保持 running 状态 。 否 则 ， 内 核 将 阻塞 进程 ， 进 程 处 于 uninterruptible sleep 或 sleeping 状态 。 
之 所 以 设置 两 个 阻塞 状态 ， 是 为 了 区 分 进程 是 否 可 以 由 非 “ 资 源 可 用 ”的 信号 就 绪 。 当 进程 初始 化 I/O 操 
作 时 ， 内 核 将 进程 状态 变 为 sleep 状态 。 在 中 断 驱 动 1/O 方式 下 ， 当 1/O 操作 结束 中 断 发 生 时 ,设备 中 上 断 
处 理 程序 会 改变 进程 的 状态 到 runnable。 如 果 结束 中 断 迟 迟 不 发 生 (如 设备 控制 器 损坏 )， 计 时 器 会 向 进 
程 发 信号 ， 把 进程 就 绪 。 通常 由 操作 系统 通过 执行 系统 调用 或 中 断 处 理 程序 将 一 个 进程 变 成 runnable 状 
态 ， 调 度 程序 会 给 变 成 runnable 状态 的 进程 一 个 占用 处 理 器 的 机 会 。 如 果 进 程 请 求 其 他 资源 ， 并 且 系 统 
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无 法 满足 其 请 求 ， 进 程 会 进入 uninterruptible sleep 状态 。 

POSIX 兼容 的 UNIX 系统 包含 了 ptrace () 系统 调用 。 这 个 系统 调用 允许 父 进程 对 其 子 进程 的 执行 有 
完全 的 控制 。 通 过 ptrace () 跟踪 的 子 进程 每 次 接 到 信号 都 会 停止 。 这 使 得 父 进 程 可 以 对 子 进程 的 完整 状 
Ge (URS) 进行 检查 和 审计 。 调 试 器 软件 经 常 使 用 ptrace () 选项 。 当 一 个 进程 被 跟踪 并 且 收 到 信和 号， 
它 会 从 running 状态 变 为 traced 或 stopped。 父 进程 能 恢复 子 进程 ， 使 得 它 从 traced 或 stopped 回 到 
runnable 状态 。 

zombie 状态 用 在 进程 结束 时 。 如 果 进 程 调用 exit ()， 进 程 管理 器 将 结束 进程 。 但 是 进程 管理 器 在 其 
父 进程 被 告知 子 进程 结束 之 前 不 会 释放 进程 描述 表 。 这 给 父 进程 一 个 机 会 ， 在 其 某 个 子 进程 结束 时 可 以 进 
行 必 要 的 清除 操作 。 在 父 进程 执行 了 针对 结束 进程 的 wait () 系统 调用 后 ， 处 于 zombie 状态 的 子 进程 真 
正 结束 ， 它 的 进程 描述 表 被 释放 ， 它 不 再 存在 于 系统 中 了 。 

E 





6.7 资源 管理 器 


资源 管理 器 的 思想 非常 普通 ， 每 一 个 资源 都 有 一 个 基本 的 行为 模式 ， 尽 管 特定 的 管理 器 是 在 操作 系统 
的 不 同 部 分 中 实现 的 。 资 源 管理 器 可 以 用 一 种 面向 对 象 类 型 的 层次 结构 来 实现 。 我 们 将 定义 一 个 特征 化 了 
所 有 行为 (除了 细节 ) 的 基 类 ; 然后 ， 当 定义 一 个 资源 管理 器 时 ， 例 如 音频 扬声器 ,我 们 可 以 继承 资源 管 
理 器 的 基 类 行为 ， 并 在 子 类 中 为 音频 扬声器 定义 细节 。 在 操作 系统 中 ， 我 们 尝试 用 稍微 有 些 不 同 的 术语 描 
述 这 种 情况 : 资源 管理 器 的 一 般 部 分 是 一 种 机 制 (mechanism) ， 它 用 来 负责 分 配 资源 ， 特 定 资源 的 行为 是 
由 策略 (policy) 来 决定 的 。 ， 

每 个 资源 管理 器 通过 接受 请 求 来 为 进程 分 配 资源 ( 见 图 6-12 中 的 request () 函数 )。request () 函 
数 将 执行 特定 资源 策略 算法 来 确定 为 进程 分 配 资源 的 标准 。 例 如 ， 音 频 扬声器 资源 管理 器 使 用 的 策略 会 禁 
止 资 源 共 享 (要 不 然 ， 多 个 进程 可 能 同时 对 扬声器 发 声 )。 它 可 能 会 限制 控制 扬声器 的 进程 类 型 。 例 如 ， 
策略 可 限制 特定 用 户 的 进程 使 用 扬声器 。 策 略 的 另 一 个 例子 是 : 资源 管理 器 可 以 让 某 个 进程 剥夺 其 他 进程 
使 用 的 扬声器 ， 就 像 执行 操作 系统 函数 的 进程 和 用 CD-ROM 设备 播放 音乐 的 进程 相 比 ， 前 者 对 资源 的 使 
用 有 更 高 的 优先 级 。 


资源 管理 器 





图 6-12 通用 的 资源 管理 器 
注 : 所 有 的 资源 管理 器 都 有 该 图 所 显示 的 一 般 形式 。 在 每 种 情况 下 ， 进 程 请 求 资源 。 如 果 资 源 管理 器 为 进程 分 
配 了 资源 ， 则 进程 可 以 继续 执行 。 否 则 ， 它 进入 等 候 资源 的 阻塞 进程 池 中 。 在 分 配 了 资源 后 ， 进 程 从 池 中 
移出 ， 并 准备 执行 。 


每 个 资源 管理 器 都 为 资源 保持 了 一 个 资源 描述 表 数 据 结构 ， 资 源 描述 表 的 细节 依赖 于 资源 和 操作 系 
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统 。 表 6-5 表示 了 资源 描述 表 中 的 信息 种 类 。 











表 6-5 资源 描述 表 
域 描 B 
Internal resource name 资源 使 用 的 内 部 名 字 ， 供 操作 系统 使 用 
Total units 系统 中 配置 的 该 资源 类 型 的 单元 数目 
Available units 当前 可 用 的 单元 数 
List of available units 一 组 可 供 进程 使 用 的 本 资源 类 型 的 资源 单元 
List of blocked processes 阻塞 进程 列表 ， 它 们 在 等 待 该 资源 类 型 资源 


为 了 更 详细 地 描述 资源 管理 器 的 行为 〈 先 不 关心 任何 特定 的 资源 或 操作 系统 )， 我 们 将 使 用 操作 系统 
组 成 的 第 一 个 形式 模型 来 描述 这 种 行为 。 在 下 面 的 4 章 中 ， 还 会 继续 改善 这 个 模型 ， 在 这 上 儿 我 们 仅仅 是 用 
这 个 模型 来 描述 资源 管理 器 的 一 般 属性 。 我 们 的 形式 模型 想 要 表示 下列 概念 : 

n 系统 中 有 m 种 不 同类 型 的 资源 。 

n 每 种 资源 有 多 个 可 用 单元 数目 。 

m 进程 可 以 请 求 可 变 的 资源 单元 数目 。 

m 在 任何 给 定 的 时 刻 ， 每 种 资源 类 型 都 存在 一 些 可 用 的 资源 单元 数目 。 

我 们 可 以 用 一 组 符号 化 的 形式 来 表示 这 些 概念 : 

R= {RI0Sj<m! 

这 种 表示 解释 如 下 : 系统 资源 R 由 一 组 不 同 资源 类 型 R; 组 成 ， 例 如， 磁带 驱动 器 是 一 种 资源 类 型 ， 
磁盘 是 男 一 种 资源 类 型 ， 鼠 标 是 第 三 种 资源 类 型 等 。 模 型 中 有 命名 为 Ro，Ri，R2z，…，R。-1i 共 m 种 不 
同类 型 的 资源 ， 因 此 ， 可 以 将 R 描述 为 : 

R= {Ro, Ri, R2, 0, Rp-1l 

下 一 步 ， 我 们 想 要 表示 当前 可 供 进 程 使 用 的 每 种 资源 单元 数目 ， 因 而 每 种 资源 类 型 Ri 有 一 个 关联 的 
数目 c ， 来 表示 资源 Ri; 可 用 的 单元 数目 。 

C= 1c 之 0| 对 每 种 资源 类 型 RIER (OSj<m)!} 

这 种 表示 解释 如 下 : 对 每 种 资源 类 型 R;， 当 前 有 cj 个 资源 单元 可 用 。 例 如 ， 如 果 Rs 代表 软盘 设备 类 
型 ， 系 统 中 有 两 个 软盘 驱动 器 ， 那 么 c3 就 为 2。 因 为 有 m 种 不 同 的 资源 类 型 ， 所 以 操作 系统 有 m 种 不 同 
的 资源 管理 器 ， 每 个 管理 器 都 有 一 个 资源 描述 表 来 保存 当前 可 用 单元 的 数目 。 

下 一 步 ， 我 们 将 使 用 形式 模型 来 更 详细 地 指定 资源 管理 器 函数 的 行为 。 一 个 在 运行 状态 的 进程 p;， 在 
任 一 时 刻 可 能 请 求 资源 R 的 z 个 单元 (当然 z 必须 小 于 或 等 于 cj ， 如 果 R 是 可 重用 资源 )。 如 果 资 源 策 
略 算法 说 明 资 源 不 能 被 分 配 ， 则 进程 管理 器 会 使 线程 让 出 CPU (并 调度 另 一 个 处 于 就 绪 状态 的 线程 来 执 
行 )。 它 然后 将 线程 的 状态 改变 为 阻塞 状态 并 将 它 放 人 阻塞 进程 池 中 〈 见 图 6-12). 

一 且 R; 的 机 制 决 定 分 配 被 请 求 的 资源 时 ， 它 会 : 

1) 更 新 操作 系统 数据 结构 (如 进程 和 资源 描述 表 ) 来 反映 分 配 操作 。 

2) 为 pi 分 配 R 的 xz 个 单元 。 

3) 将 pi 从 R; 的 阻塞 池 中 移出 。 

4) 将 p; 的 状态 置 为 就 绪 状 态 

R; 的 资源 管理 器 通过 接受 释放 命令 (在 图 中 调用 release () 函数 ) 来 将 资源 R 释放 回 缓冲 池 中 ， 
这 使 得 Rj 资源 管理 器 可 将 这 些 释放 的 资源 重新 分 配给 等 候 此 资源 的 进程 。 

资源 是 潜在 阻塞 进程 执行 的 东西 。 如 果 进 程 请 求 主 存 块 ， 但 主 存 块 不 可 用 ， 则 存储 管理 器 会 阻塞 进程 
的 执行 直到 主 存 变 得 可 用 。 假 定 资源 管理 器 的 一 般 行 为 ， 资 源 的 概念 可 以 扩展 到 抽象 实体 如 消息 或 输入 数 
据 。 因 为 一 个 进程 在 等 候 一 个 设备 的 输入 数据 时 也 会 被 阻塞 ， 它 会 一 直 处 于 阻塞 状态 ， 直 到 数据 从 设备 读 
人 进程 中 。 

可 重用 资源 (reusable resource) 指 的 是 这 类 资源 (如 主 存 )， 它 们 可 以 分 配给 进程 使 用 ， 在 进程 使 用 完 
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它们 后 可 以 返回 给 系统 。 更 抽象 的 资源 (如 输入 数据 ) 可 以 分 配给 进程 ， 但 进程 使 用 完 后 从 不 释放 ,. 这 种 
资源 称 之 为 可 消费 资源 (consumable resources)。 系 统 中 总 是 有 明确 的 、 固 定 的 可 重用 资源 的 单元 数目 ， 即 
ci 是 一 个 表示 可 重用 资源 类 型 数目 的 固定 整数 。 然 而 ， 可 消费 资源 的 单元 数目 是 不 受 限 制 的 ， 因为 会 有 一 
个 或 多 个 生产 进程 产生 可 消费 资源 ， 不 可 能 知道 将 来 可 能 生产 的 资源 单元 的 数目 。 

进程 /线程 通过 释放 一 个 或 更 多 的 资源 单元 来 创建 可 消费 资源 。 例 如 ， 如 果 消 息 是 资源 ， 则 接收 线程 
会 在 消息 类 型 资源 上 排队 〈 如 果 没 有 类 型 R 的 待 处 理 消息 ， 则 c 为 0 并 且 接 收 线程 在 Ri 上 阻塞 )。 当 另 
一 个 进程 发 送 消息 时 ， 消 息 处 理 代码 释放 R; 资源 单元 到 资源 管理 器 中 。 资 源 管理 器 然后 为 接收 线程 分 配 
资源 单元 ， 使 得 它 能 继续 处 理 。 

因为 进程 间 资 源 请 求 的 模式 是 不 可 预测 的 ， 因 而 对 资源 的 竞争 是 动态 的 。 这 意味 着 一 个 请 求 资源 的 进 
程 /线程 可 能 被 阻塞 任意 长 的 时 间 间 隔 ， 这 个 时 间 通 常 是 不 可 预测 的 ， 因 为 资源 可 能 已 经 分 配给 另外 的 进 
程 ， 或 者 在 请 求 可 消费 资源 的 情形 中 ， 可 能 资源 还 没有 生产 出 来 。 对 于 线程 来 说 ， 它 所 持 有 的 可 重用 资源 
的 使 用 时 间 也 不 可 能 预测 ， 最 后 ， 线 程 释放 资源 ， 或 者 通过 执行 exit 系统 调用 来 结束 自己 。 进 程 的 结束 
会 引起 操作 系统 回收 当前 分 配给 该 进程 的 资源 ， 从 主 存 开始 ， 最 后 包括 所 有 已 分 配给 它 的 可 重用 资源 。 结 
束 进程 所 拥有 的 可 消费 资源 ， 假 定 已 被 该 进程 消费 ， 也 就 不 进行 恢复 了 。 


6.8 概括 进程 管理 策略 


进程 创建 时 隐 式 地 定义 了 进程 间 的 层次 
结构 ， 在 层次 结构 中 ， 人 允许 一 组 进程 在 基本 
任务 上 达成 一 致 ， 如 哪 一 个 进程 能 够 控制 其 
他 进程 ， 以 及 资源 如 何 分 配给 进程 。 

在 进程 层次 中 ， 父 进程 有 很 多 子 进程 ， 
但 每 个 子 进程 恰好 只 有 一 个 父 进 程 ( 见 
图 6-13)。 初 始 进程 是 所 有 进程 的 根 ， 当 进程 
创建 子 进程 时 ， 一 个 叶 节 点 被 添加 到 树 中 。 

一 些 操作 系统 采用 了 这 种 层次 结构 关系 ， 
而 另 一 些 操作 系统 并 不 使 用 。 例 如 ， 可 以 设 
计 操 作 系 统 使 得 父 进程 有 权 挂 起 子 进程 的 执 
行 。 父 进程 也 可 以 激活 一 个 挂 起 的 子 进 程 ， 
可 以 结束 一 个 子 进程 ， 或 为 子 进程 分 配 资源 。 
假定 操作 系统 在 进程 创建 关系 中 采用 了 这 些 
语义 ， 因 为 所 有 的 进程 都 是 由 初始 进程 来 创 





建 的 ， 所 以 每 个 子 进程 都 在 初始 进程 的 完全 图 6-13 进程 的 层次 结构 

控制 之 下 ,初始 进程 可 以 为 每 个 子 进程 分 配 È: 进程 层次 结构 是 进程 创建 过 程 的 自然 结果 。 一 个 进程 

资源 、 阻 塞 /激活 进程 、 结 束 每 个 子 进程 等 。 可 以 创建 多 个 子 进程 ， 每 个 子 进 程 却 只 有 一 个 父 进程 。 
如 果 你 用 一 条 边 来 连接 图 中 的 子 进程 和 父 进 程 的 话 ， 

6.8.1 精 化 进程 管理 器 这 幅 图 将 是 一 棵 树 ， 初 始 进程 是 该 树 的 根 。 


如 果 控 制 语义 加 入 到 进程 的 父 - 子 关系 
中 ， 例 如 ， 父 进程 可 以 控制 子 进程 ， 那 么 进程 管理 就 会 变 得 更 复杂 了 。 这 可 以 通过 观察 进程 状态 图 的 变化 
而 得 知 。 图 6-10 中 所 提供 的 进程 管理 状态 图 ， 只 是 强调 了 资源 的 管理 和 处 理 器 的 复 用 ; 图 6-14 中 增加 了 
更 多 的 细节 来 反映 一 些 额 外 的 语义 ， 新 的 状态 图 表现 了 当 人 允许 父 进程 可 以 挂 起 和 激活 子 进程 时 ， 进 程 是 如 
何 被 管理 的 。 如 果 父 进程 挂 起 子 进程 ， 那 么 子 进程 就 不 允许 使 用 CPU 了 ; 当 父 进程 激活 子 进程 时 ， 假 设 
子 进程 没有 被 阻塞 ， 那 么 它 就 能 够 竞争 使 用 CPU。 父 进程 可 能 有 很 多 原因 决定 挂 起 子 进程 ， 包 括 临时 从 主 
存 中 移出 一 个 子 进程 (也 称 为 “将 进程 交换 出 去 ”)。 

精 化 通过 将 原来 图 中 的 阻塞 状态 分 为 阻塞 活跃 (blockedActive) 和 阻塞 挂 起 (blockedSuspended) 状 
态 而 得 到 ， 这 幅 图 中 也 显示 了 新 的 状态 转换 。 类 似 地 ， 就 绪 状态 也 分 为 就 绪 活 肥 (readyactive) 和 就 绪 挂 
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起 (readySuspend) 两 种 状态 。 当 一 组 初始 资源 已 经 分 配给 进程 后 ， 进 程 就 进入 就 绪 挂 起 状态 ， 这 意味 着 
在 内 部 ， 新 进程 准备 竞争 CPU， 但 它 的 控制 进程 还 没有 激活 它 。 一 旦 控制 进程 决定 激活 新 进程 ， 那 么 它 就 
进入 就 绪 活 路 状态 ， 加 入 CPU RAD, AREAS CPU 而 不 能 运行 ， 在 等 待 调度 程序 分 配 CPU 给 
它 。 基 于 控制 进程 所 使 用 的 策略 ， 控 制 进程 可 能 会 挂 起 一 个 处 于 就 绪 活 路 状 态 的 子 进程 ， 或 者 由 调度 程序 
分 配 CPU 给 该 进程 。 在 前 一 种 情况 下 ， 子 进程 又 返回 到 阻塞 挂 起 状态 ， 而 在 后 一 种 情况 下 ， 它 成 为 一 个 
在 CPU 上 运行 的 进程 。 


running 


Done 
一 一 一 一 ) > request 


yield 
Schedule 


suspend 






request 








suspend 





， Start 
readyActive <_—_—_— 





activate 
readySuspended 


Allocate Allocate 





suspend 






blockedSuspended 





activate 


blockedActive 


图 6-14 ”进程 状态 图 的 控制 关系 
注 : 在 进程 层次 结构 中 ， 父 进程 可 以 控制 子 进程 。 在 这 个 状态 图 中 ， 父 进程 可 以 挂 起 和 激活 任意 一 个 子 进程 。 


. 根据 调度 程序 的 选择 ， 在 运行 状态 的 进程 可 能 要 被 迫 放弃 CPU 的 使 用 (或 者 是 在 另 一 个 不 同 的 处 理 
器 上 运行 的 父 进程 选择 阻塞 子 进 程 )， 进 程 也 可 能 自愿 地 进入 就 绪 活跃 状态 (通过 放弃 使 用 处 理 器 )。 它 也 
可 能 由 于 请 求 的 资源 不 可 用 而 进入 阻塞 活跃 状态 。 如 果 进 程 需要 CPU 才能 向 前 运行 ， 那 它 就 处 于 就 绪 状 
态 ; 如 果 它 需要 其 他 不 同 的 资源 才能 向 前 运行 ， 那 它 就 处 于 阻塞 状态 。 

如 果 一 个 处 于 阻塞 活跃 状态 的 进程 请 求 的 资源 得 到 分 配 ， 它 就 会 变 成 就 绪 活 牙 状 态 ;， 如果 在 进程 阻塞 
的 时 候 ， 控 制 进程 选 择 挂 起 它 ， 它 就 会 由 阻塞 活 牙 状态 变 成 阻塞 挂 起 状态 。 对 进程 请 求 资源 的 分 配 操作 ， 
会 使 进程 从 阻塞 的 任 一 种 状态 进入 相应 的 就 线 状 态 。 对 进程 的 激活 操作 会 使 它 从 挂 起 状态 进入 相应 的 活路 
状态 。 


6.8.2 专用 的 资源 分 配 策略 


资源 管理 的 职责 可 以 委托 给 每 个 被 创建 的 子 进程 ， 这 就 意味 着 子 进程 必须 要 有 自己 的 算法 和 数据 结 
构 ， 管 理 它们 的 资源 。RC 4000 的 操作 系统 充分 使 用 了 这 种 方法 [Brinch Hansen, 1970]， 在 该 系统 设计 
中 ， 由 内 核 提供 基本 的 进程 管理 机 制 ， 而 将 不 同 的 资源 分 配 策略 让 给 客户 和 它们 的 子 进程 实现 。 子 进程 是 
由 内 核 进 程 创建 的 ， 并 且 每 个 子 进程 都 包含 一 个 专门 用 途 的 操作 系统 ， 在 它们 自己 的 资源 管理 器 中 ， 实 现 
自己 的 资源 策略 。 在 这 种 方法 中 ， 专 用 的 资源 管理 器 是 在 每 个 子 进程 中 实现 的 ， 而 不 是 在 系统 内 核 内 ， 所 
以 这 种 系统 内 核能 够 同时 支持 对 内 核 的 实时 性 扩展 、 分 时 共享 扩展 以 及 批 处 理 扩展 。 实 时 性 扩展 能 够 根据 
服务 的 优先 级 分 配 资源 ， 而 分 时 共享 扩展 根据 响应 时 间 以 及 批 处 理 扩展 根据 周转 时 间 进 行 资 源 分 配 。 这 种 
策略 可 以 应 用 到 整个 进程 层次 结构 中 (已 在 RC 4000 中 实现 )， 所 以 资源 总 是 由 父 进程 分 配 ， 而 不 是 由 
“操作 系统 ”进行 。 
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很 明显 ， 与 其 他 系统 如 UNIX 相 比 ， 这 种 方法 使 子 进程 的 定义 变 得 极为 复杂 ， 例 如 ， 父 进程 在 资源 管 
理 方面 有 相当 大 的 职责 ， 而 在 UNIX 中 这 是 由 系统 来 完成 的 。 但 在 RC 4000 系统 中 ， 可 以 设计 和 建立 比 
UNIX 中 的 更 为 灵活 的 进程 层次 结构 。 


6.9 人 小结 


进程 是 现代 计算 模型 的 基础 ， 进 程 使 用 应 用 程序 来 确定 它 的 精确 行为 。 在 多 道 程序 设计 操作 系统 中 ， 
每 个 进程 都 有 自己 的 虚拟 机 ， 它 们 是 在 底层 硬件 之 上 的 一 层 抽象 。 操作 系统 被 设计 用 来 支持 多 个 虚拟 机 的 
并 发 执行 ， 因 此 ， 它 能 使 多 个 进程 并 发 执行 。 

进程 管理 器 是 操作 系统 的 一 部 分 ， 它 实现 了 虚拟 机 模型 。 支 持 经 典 进程 的 操作 系统 提供 了 虚拟 机 ， 它 
的 行为 和 汉 诺 依 曼 计算 机 的 行为 很 相似 。 更 新 的 操作 系统 将 经 典 进程 的 行为 分 为 现代 进程 框架 和 几 个 计 
算 线程 。 框 架 对 应 于 经 典 进程 中 定义 的 地 址 空间 和 执行 计算 所 必需 的 系统 资源 这 一 部 分 。 线 程 是 经 典 进程 
中 表示 程序 动态 执行 的 那 一 部 分 。 只 有 一 个 单线 程 的 现代 进程 的 概念 和 经 典 进程 的 概念 是 相同 的 。 在 现代 
进程 模型 中 ， 程 序 员 可 以 在 同一 进程 框架 内 创建 多 个 并 发 线程 来 执行 

通过 指导 硬件 进程 在 操作 系统 和 每 个 虚拟 机 上 执行 ， 一 组 进程 和 线程 得 以 实现 。 进 程 管理 器 创建 了 起 
拟 机 环境 、 虚 拟 机 自己 的 算法 和 数据 结构 。 进 程 和 线程 描述 表 是 虚拟 机 设计 的 基本 元 素 。 这 些 描述 表 由 进 
程 管理 器 创建 ， 尽 管 这 些 表 中 有 好 几 个 域 可 由 操作 系统 的 其 余部 分 来 操作 。 进 程 在 必要 时 可 通过 与 资源 管 
理 器 交互 来 获得 资源 。 对 每 个 资源 管理 器 来 说 ， 有 共同 的 基本 行为 ， 但 是 如 处 理 器 、 主 存 和 文件 等 资源 有 
专门 的 管理 器 ， 它 们 将 在 后 续 章 节 中 讨论 。 

本 章 讨论 了 进程 管理 器 的 概念 、 问 题 和 设计 ， 这 些 讨论 提供 了 操作 系统 如 何 运行 的 基本 信息 ， 也 为 后 
续 章 节 的 操作 系统 的 其 余部 分 的 讨论 提供 了 背景 。 下 一 章 着 重 于 介绍 处 理 器 资源 管理 器 ， 常 称 之 为 调度 
程序 。 


6.10 习题 


1. 如 果 线 程 是 在 用 户 空间 线程 库 中 实现 的 ， 那 么 当 进 程 中 的 一 个 线程 阻塞 时 ， 则 进程 内 的 所 有 其 他 
线程 都 会 阻塞 ， 请 解释 一 下 原因 。 如 果 线 程 是 在 内 核 中 实现 的 ， 则 进程 内 的 其 他 线程 不 会 被 阻塞 ， 
为 什么 ? 

2. 在 6.2 节 描 述 的 硬件 进程 有 进程 描述 表 吗 ? 初始 进程 有 进程 描述 表 吗 ? 解释 一 下 你 的 回答 。 

3. 每 个 进程 被 创建 时 都 有 一 个 地 址 空间 ， 它 定义 了 对 进程 中 的 每 个 存储 映射 资源 的 访问 。 解 释 一 下 
一 个 进程 如 何 引 用 不 在 其 地 址 空间 内 的 对 象 ( 例 如 ， 一 个 文件 或 男 一 个 进程 )。 

4. 许多 操作 系统 为 进程 描述 表 准 备 了 一 个 静态 数组 ， 意 味 着 操作 系统 中 存在 着 一 个 最 大 进程 数目 。 
解释 一 下 为 什么 内 核 不 使 用 动态 数据 结构 来 允许 一 个 可 变数 目的 进程 描述 表 存 在 。 

5. 下 面 是 经 典 进程 描述 表 的 一 些 域 ， 在 具有 进程 和 线程 的 现代 进程 模型 中 ， 说 明 下 列 域 是 否 应 在 进 
程 描 述 表 或 线程 描述 表 中 。 

BHA 

m 栈 底部 

a 由 于 资源 不 可 用 而 发 生 了 阻塞 
BATHE 

mE Re AACE 

m 执行 状态 

6. 当 一 个 新 的 进程 从 就 绪 状态 进入 运行 状态 时 ( 见 图 6-10)，CPU 中 的 每 个 寄存 器 ， 或 者 设置 成 它们 
的 初始 值 ， 或 者 设置 成 上 次 被 中 断 时 的 每 个 寄存 器 的 值 。 解 释 一 下 为 什么 程序 计数 器 是 最 后 一 个 
进行 设置 的 寄存 器 ? 编写 一 段 伪 汇 编 语言 代码 ， 表 现 将 新 进程 加 载 到 CPU 运行 的 过 程 (I RE 
其 他 寄存 器 后 改变 PC), ， 假 定 处 理 器 包含 算术 逻辑 寄存 器 RO0 一 R3， 处 理 器 状态 寄存 器 PSR， 条 件 
码 寄存 器 CC， 程 序 计 数 器 PC， 以 及 指令 寄存 器 IR。 

7. 假定 可 以 设计 一 个 操作 系统 使 得 进程 处 于 下 面 的 几 种 状态 之 一 ; 

日 运行 :当前 正在 使 用 CPU, 
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ERA: 等 待 使 用 CPU。 

m PETRA (Blocked for Interrupt): 等 待 中 其 处 理 程序 完成 ， 然 后 恢复 运行 。 

n 可 重用 资源 阻塞 (Blocked for reusable resource): 等 待 分 配 可 重用 资源 ， 然 后 进入 就 绪 状 态 。 

m 可 消费 资源 阻塞 (Blocked for consumable resource): 等 待 分 配 可 消费 资源 ， 然 后 进入 就 绪 状 态 。 
画 一 幅 状 态 图 来 表示 进程 如 何在 这 些 状 态 中 变化 。 

. 假设 进程 的 行为 定义 如 图 6-10 所 示 ， 设 计 和 实现 一 个 用 于 管理 可 重用 资源 的 资源 管理 器 。 当 多 个 
进程 因 某 个 资源 阻塞 ， 而 一 个 或 多 个 资源 单元 变 为 可 用 时 ， 调 用 一 个 策略 函数 来 选择 进程 使 用 资 
源 ， 其 中 可 以 实现 任 一 你 喜欢 的 简单 策略 。 创 建 一 个 测试 平台 ,测试 你 的 资源 管理 器 ， 其 中 有 N 
个 不 同 的 进程 (N 为 测试 平台 参数 ) ，M 种 不 同 的 资源 (M 为 测试 平台 参数 )， 最 初 资源 R Ac; 
个 单元 可 用 (i 为 测试 平台 参数 )。 任 一 时 刻 只 能 有 一 个 进程 运行 ， 所 以 你 也 需要 一 个 简单 的 调度 
程序 ,来 顺序 地 在 就 绪 的 进程 间 分 配 处 理 器 。 一 个 运行 进程 应 该 执行 一 小 段 随 机 时 间 ， 然 后 请 求 
一 个 资源 单元 ， 并 转 入 阻塞 状态 。 当 资源 分 配给 进程 后 ， 它 应 该 进入 就 绪 状 态 。 后 来 ， 测 试 平台 应 
该 释放 进程 请 求 的 每 个 资源 。 你 的 测试 平台 进程 只 需要 模拟 真正 进程 执行 的 工作 。 例 如 ， 测 试 平 
台中 可 以 有 类 似 下 面 的 代码 框架 


#define N 50 


co 


scanf (”%d", M); // Define a value for M 
for(i=0; i<M; i++) { ... } // Define values for cli]) 


for(i=0; i<N; i++) { 
‘ waitTime = rand(); 


for(j=0; j<waitTime; j++) { }; // Simulate running 
// process 

request (r[itM], ...); // Ask for k < c[itM] units 

waitTime = rand(); 

for(j=0; j<waitTime; j++) { }; // Simulate running 
// process 

release(r{i%M], ...); // Release resource 


} 


更 为 复杂 的 测试 过 程 ， 将 会 使 进程 在 一 个 时 间 内 拥有 多 于 一 种 的 资源 类 型 。 如 果 你 有 时 间 ， 使 你 的 
测试 程序 检查 一 些 更 为 复杂 的 情形 。 

实验 中 ， 变 量 可 使 用 较 小 的 值 ， 如 N<8 ，M< 10， 进 程 运行 的 随机 时 间 应 该 尽 可 能 小 ， 以 保 
证 测试 中 不 会 出 现 混乱 的 时 间 。 确 定 在 你 的 测试 情形 中 让 进程 申请 不 可 用 的 资源 而 阻塞 。 上 交 一 份 
清单 ( 少 于 5 页) ， 包 括 你 的 资源 管理 器 、 测 试 平 台 程序 ， 以 及 在 一 次 测试 会 话 (session) 中 状态 变 
换 的 踪迹 。 


实验 6.1: 内 核 计时 器 


| 本 作业 可 在 大 多 数 的 UNIX 版 本 的 操作 系统 中 实现 。 | 


设计 和 实现 一 个 软件 ， 其 中 使 用 XITIMER REAL, ITIMER VIRTUAL 和 ITIMER_ PROF 间隔 计时 器 来 测量 进程 
的 处 理 器 使 用 率 。 准 备 提 交 一 个 性 能 报告 ， 报 告 包 括 执行 的 实际 墙 钟 时 间 (利用 ITIMER_REAL) CPU 时 间 
《进程 运行 在 用 户 模式 和 核心 模式 下 的 总 时 间 )、 用 户 模式 下 运行 的 时 间 ， 以 及 在 核心 模式 下 运行 的 时 间 。 
你 可 以 调用 gettimeofday () 来 检查 墙 钟 时 间 的 准确 性 。 所 有 的 时 间 的 精确 度 可 达到 微 秒 级 。( 可 能 硬件 
不 支持 微 秒 级 的 精确 度 ， 但 你 可 以 设计 代码 来 使 得 时 钟 好 像 有 微 秒 级 的 精确 度 一 样 。) 使 用 signal 机 制 建 
立 一 个 信号 处 理 程序 ， 记 录 保 存 实际 的 、 虚 拟 的 或 用 于 进程 统计 的 时 间 秒 数 (你 可 以 配置 这 三 个 计时 器 使 
得 每 秒 出 现 一 个 信和 号 )。 你 可 以 创建 一 个 父 进 程 和 两 个 子 进程 ， 并 让 它们 执行 “解决 问题 ”一 节 中 的 Fi- 
bonacci 程序 ， 通 过 评估 它们 的 性 能 来 阐述 你 的 解决 方法 。 在 实验 中 ， 可 以 设 定 Fibonacci 序列 的 N = 20、 
30 和 36。 
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背景 


时 间 的 表示 一 般 来 说 总 是 一 个 重要 的 新 纪元 的 开始 ， 例 如 ， 美 国 的 时 间 是 通过 格 里 历 ， 也 即 阳历 时 间 
来 计算 的 ， 而 阳历 时 间 是 大 约 2000 年 前 从 0 开始 计算 的 。 当 你 输入 date 命令 到 shell， 该 命令 会 读 取 内 核 
变量 来 获取 时 间 ， 显 示 出 “Mon Jun 21 09: 01; 28 MDT 2002” 的 字样 ， 你 大 概 会 解释 为 自从 新 纪元 的 开始 
时 间 已 经 过 去 了 2002 年 。 

由 于 UNIX 系统 是 1970 年 以 后 出 现 的 ， 因 而 它 无 需 表 示 1970 年 前 的 时 间 ， 它 的 开始 时 间 点 定 为 1970 
年 1 月 1 日 的 开始 (格林 威 治 时 间 的 00: 00: 00)。 从 UNIX 系统 计时 算 起 ， 到 2000 年 1 月 ， 也 就 是 30 
年 的 时 间 ， 它 走 过 了 946 080 000 秒 ， 所 以 你 可 以 使 用 一 个 整数 来 表示 已 经 走 过 的 秒 数 。 如 果 我 们 想 要 使 
用 data 命令 通过 格 里 历来 表示 时 间 和 日 期 ， 则 要 把 UNIX 的 计时 格式 转换 成 格 里 历 格式 表示 。 

因为 一 年 有 25 秒 ,一 个 32 位 的 有 符号 整数 可 以 保存 已 经 走 过 的 秘 的 数目 大 约 为 2 (64 年 ) 一- 
也 就 是 到 公元 2034 Æ. Æ UNIX 内 核 中 ， 两 个 lon int 型 的 内 核 变 量 ， 分 别 保存 着 自从 UNIX 系统 计时 
开始 以 来 ， 走 过 的 秒 和 微 秒 的 数目 。UNIX 内 核 中 用 来 保存 时 间 值 的 数据 结构 是 : 


struct timeval { 

long tv_sec; 

long tv_usec; 

di 

操作 系统 是 如 何 知道 什么 时 候 来 更 新 当前 时 间 的 struct timeval 表示 呢 ? 每 个 现代 计算 机 包含 了 一 个 
非常 简单 的 可 编程 的 计时 器 设备 (timer device) 。 这 个 设备 不 进行 任何 1/O 操作 ， 它 是 用 来 在 一 个 准确 的 
时 间 间 隔 内 产生 中 断 的 《例如 ，Linux 操作 系统 设计 计时 器 设备 使 得 它 每 秒 产生 100 个 中 断 )。 操 作 系统 可 
以 使 用 这 个 设备 来 保持 准确 的 时 间 。 当 操作 系统 进行 初始 化 时 ， 它 将 时 间 变 量 设 置 为 0， 每 次 计时 器 设备 
发 生 中 断 时 ， 设 备 中 断 处 理 程序 就 增加 时 间 变 量 的 值 。 也 就 是 说 ， 如 果 中 断 每 10 毫秒 发 生 一 次 ， 计 时 器 
设备 中 断 处 理 程序 在 操作 系统 时 间 变 量 tv_usec 域 增加 10 ms， 并 将 溢出 的 值 加 入 到 tv_sec 域 中 。 

用 户 程 序 可 以 使 用 系统 调用 来 访问 由 UNIX 内 核 维护 的 当前 时 间 (gettimeofday () 是 常用 的 时 间 相 
关 的 系统 调用 接口 函数 ) : 


#include <sys/time.h> 
struct timeval theTime; 


gettineotday(«the?ine, NULL); 


当代 码 段 完 成 时 ，timeval 结构 中 的 theTime. tv_sec 项 记录 了 自从 1970 年 .1 A 1 日 开始 以 来 所 走 过 的 
秒 数 。theTime.tv_usec 是 一 个 长 整 型 的 变量 ， 它 提供 了 上 一 秒 开始 以 来 所 走 过 的 微 秒 数 。 当 操作 系统 进 
行 初始 化 时 ， 自 从 UNIX 系统 开始 计时 以 来 所 经 过 的 秒 数 保存 在 内 核 变量 中 。gettimeofday () 函数 通过 
将 系统 启动 以 来 走 过 的 时 间 与 基 时 间 相 加 来 确定 当前 的 时 间 。 

由 计时 器 设备 处 理 程序 维护 的 操作 系统 时 钟 值 可 用 来 确定 调度 时 机 ， 如 什么 时 候 当 前 正在 运行 的 进程 
应 该 让 出 CPU 使 得 另 一 个 进程 可 以 使 用 CPU， 也 可 用 来 记录 每 个 进程 在 用 户 模式 或 核心 模式 下 的 执行 时 
间 (使 用 问题 陈述 中 的 ITIMER 值 ) 。 

每 个 进程 的 计时 器 

内 核 为 每 个 进程 累计 时 间 并 管理 进程 的 不 同 的 计时 器 。 例如 ， 调 度 策略 依赖 于 每 个 进程 上 次 占用 CPU 
以 来 的 CPU 时 间 量 。 内 核 也 保存 了 与 每 个 进程 相关 的 三 个 时 间 间 隔 : 

E ITIMER_REAL 反映 了 进程 走 过 的 实际 时 间 ， 是 使 用 it_real value 和 it_real_incr 域 来 实现 的 

m ITIMER_VIRTUAL 反映 了 进程 走 过 的 虚拟 时 间 ， 意 味 着 仅 当 相应 的 进程 执行 在 用 户 模式 时 ， 这 个 时 间 

值 才 会 增加 。 

E ITIMER PROF 反映 了 进程 处 于 活跃 状态 下 的 时 间 (虚拟 时 间 ) 加 上 内 核 为 进程 服务 的 时 间 (例如 ， 

执行 系统 调用 )。 

每 个 计时 器 实际 上 是 递减 计时 器 ， 即 它们 周期 性 地 被 初始 化 为 指定 的 数值 ， 然 后 通过 向 下 递减 直到 
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0， 来 反映 时 间 的 流逝 。 当 计时 器 实际 为 0 时 ， 就 发 出 一 个 信号 ， 这 样 系统 中 的 其 他 部 分 〈 在 操作 系统 中 
或 用 户 模式 程序 ) 就 会 注意 到 这 个 计时 器 已 为 0， 然 后 重新 设置 时 间 ， 又 开始 递减 计数 。 
每 个 计时 器 使 用 setitimer () 系统 调用 来 进行 初始 化 。 


#include <sys/time.h> 


setitimer ( 
int timerType, 
const struct timerval *value, 
struct itimerval *oldValue 


) 


struct itimerval 结构 定义 如 下 : 


“struct itimerval { 
struct timeval it interval; 
struct timeval it_value; 
ye 
你 可 以 通过 man 命令 来 了 解 setitimer () 的 有 关 参 数 的 细节 。 通 常 的 做 法 是 将 timerType 参数 设置 成 
ITIMER REAL, ITIMER VIRTUAL 或 ITIMER PROF 三 者 之 一 (它们 都 是 常量 ， 定 义 在 sys/time.h include 文件 
中 )。value 参数 用 来 初始 化 给 定 计 时 器 的 tv_sec 和 tv_usec 域 ， 让 _value 域 定 义 了 计时 器 的 当前 值 ，it_ 
interval 域 定义 了 在 计时 器 为 0 时 ， 用 来 重新 设置 计时 器 的 值 。 
计时 器 的 值 可 以 使 用 getitimer O 系统 调用 得 到 : 


#include <sys/time.h> 
getitimer ( 
int timerType, 
const struct timerval *value, 
) 
在 这 种 情况 下 ，value 参数 用 来 返回 内 核 时 钟 值 。 
,下 面 的 代码 段 设置 ITIMER_REAL， 然 后 读 取 它 : 


#include <sys/time.h> 
struct itimerval v; 


v.it_interval.tv_sec = 9; 
v.it_interval.tv_usec = 999999; 
v.it_value.tv_sec = 9; 
v.it_value.tv_usec = 999999; 
setitimer(ITIMER_REAL, &v, NULL); 
getitimer(ITIMER_ REAL, àv)? 
printf(”... $ld seconds, $ld microseconds wea, 
seer 
v.it_value.tv_sec, 


v.it_value.tv_usec, 
..); 


当 ITIMER_REAL 为 0 时 ， 它 会 又 重新 设 为 (9, 999999); 然而 ， 这 段 代码 中 没有 定义 当 相应 的 信号 发 
出 时 的 信号 处 理 过 程 。 
解决 问题 

信号 

每 种 UNIX 系统 都 定义 了 一 组 可 以 由 进程 或 系统 发 出 ， 从 而 引起 其 他 进程 中 断 的 信号 ， 被 中 断 的 进程 
(有 选择 地 ) 通过 执行 事先 说 明 的 该 信号 的 特定 代码 来 处 理 信 号 。 因 此 ， 信 号 是 操作 系统 的 一 项 机 制 ， 用 
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于 通知 一 个 应 用 进程 某 个 事件 已 经 发 生 了 。 它 经 常 表示 硬件 事件 的 发 生 ， 如 用 户 按 了 一 个 删除 键 ， 或 者 
CPU 检测 到 了 除数 为 0 的 企图 。 信 号 也 用 于 通知 进程 一 个 软件 条 件 的 存在 ， 例 如 ， 它 可 以 表示 三 个 进程 计 
时 器 中 的 一 个 到 0 的 情况 。 

信和 号 也 能 够 在 应 用 程序 级 的 进程 间 使 用 。 每 个 信号 有 一 个 相关 的 类 型 〈( 称 为 “名 字 ”)。 在 当代 UNIX 
系统 中 (包括 Linux 系统 ) 中 ,建立 了 31 种 类 型 的 信 叶 。 尽 管 信号 类 型 在 BSD 版 的 UNIX (Free BSD), 
AT&T $ System V 的 发 行 版 4 (SVR4), POSIX 和 ANSI C 中 都 有 所 不 同 。 每 个 版 本 都 在 系统 include X 
fF signal.h 中 定义 了 大 量 的 信号 类 型 的 符号 名 字 。 例 如 ， 所 有 版 本 的 UNIX 中 都 定义 了 信号 类 型 SIGINT， 
当 用 户 按 终 端的 中 断 字符 键 时 (通常 为 Delete 或 Control-C)， 终端 驱动 程序 就 会 发 出 这 个 信和 号。 应 用 程序 
员 不 被 允许 创建 新 的 信号， 但 是 大 多 数 版 本 的 UNIX 中 包括 了 SIGUSR1 和 SIGUSR2， 它 们 可 以 用 于 应 用 程 
序 间 的 信号 传递 。 

通过 调用 kill () 函数 可 以 发 出 一 个 信号 ， 并且 标 识 接 收 的 进程 和 信号 的 类 型 。 通 常 ， 接 收 信 号 的 应 
用 程序 进程 可 以 使 用 默认 的 方式 来 处 理 信和 号， 或 忽略 信号， 或 者 通过 用 户 定义 的 代码 来 处 理 信号 。 调 用 
signal () 函数 指明 信和 号 的 名 字 和 信和 号 的 处 理 方法 。 例 如 ， 要 忽略 信号 SIGALRM， 进 程 中 必须 执行 下 面 的 
系统 调用 : 
"signal (SIGALRM, SIG_IGN); 


通过 再 次 调用 signal ()， 带 上 SIG_DFT 参数 ， 可 以 使 信号 默认 处 理 功 能 恢复 。 通 过 提供 一 个 应 用 程 
序 函 数 (有 一 个 整数 参数 ， 返 回 值 为 void) 作为 signal 函数 中 的 第 二 个 参数 ， 应 用 程序 可 以 使 用 自己 的 
代码 处 理 alarn 信和 号 。 ` 

下 面 的 完整 程序 说 明了 如 何 使 用 signal () 函数 调用 来 注册 信号 处 理 程序 ， 以 及 信号 处 理 程序 本 身 的 
形式 ， 并 说 明了 整个 机 制 是 如 何 运作 的 。 


#include <signal.h> 
static void sig handler(int); 
int main (void){ 
int i, parent_pid, child_pid, status; 
/* Prepare the sig handler routine to catch SIGUSR1 and SIGUSR2 */ 
if (signal(SIGUSR1, sig_handler)==SIG_ ERR) 
printf(”“Parent: Unable to create handler for SIGUSR1\n"); 
if (signal(SIGUSR2, sig_handler)==SIG_ERR) 
printf(“Parent: Unable to create handler for SIGUSR2\n"); 
parent_pid = getpid(); 
if ((child_pid = fork())==0) { 
kill(parent_pid, SIGUSR1); /* Raise the SIGUSR1 signal */ 
/* Child process begins busy wait for a signal */ 
for (;;) pause(); 
else { 
kill(child_pid, SIGUSR2); /* Parent raising SIGUSR2 signal */ 
printf(“Parent: Terminating child ..."); 
kill(child_pid, SIGTERM); /* Parent raising SIGTERM signal */ 
wait(&status); /* Parent waiting for the child termination */ 
printf(“done\n”); 
} 
} 


w 


static void sig handler(int signo){ 

switch (signo) { 

case SIGUSR1: /* Incoming SIGUSR1 signal */ 
printf(”"Parent: Received SIGUSR1\n”); 
break; 

case SIGUSR2: /* Incoming SIGUSR2 signal */ 
printf("“Child: Received SIGUSR2\n"); 
break; 

default: break; /* Should never get this case */ 

} 

return; 


} 
这 段 代码 是 用 于 教学 的 ， 其 中 说 明了 信号 是 如 何 发 出 和 获取 的 ， 但 它 没有 实现 任何 有 用 的 功能 。 在 示 
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例 代码 中 ， 我 们 建立 了 一 个 信号 处 理 程序 sig_handler， 通 过 两 次 signal () 调用 被 父 进程 和 子 进程 使 用 。 
示例 代码 通过 getpid () 系统 调用 确定 自己 的 进程 标识 号 ; 然后 创建 了 一 个 子 进程 ， 因 此 父 进程 知道 父 进 
程 和 子 进程 的 进程 标识 号 ， 但 子 进程 只 知道 父 进程 的 标识 号 。 子 进程 传送 SIGS 给 父 进 程 ， 随 后 进行 了 
忙 等 待 ， 这 样 在 父 进程 回 传 信号 时 ， 它 还 存在 ; 父 进程 发 送 SIGUSR2 给 子 进程 ， 随 后 又 发 了 一 个 进程 终止 
信号 (SIGER) 给 子 进程 ， 并 且 调 用 wait 获取 子 进程 终止 的 报告 。 父 子 进程 使 用 了 同一 个 信号 处 理 程序 ， 
尽管 子 进 程 从 来 没有 看 到 SIGUSR1， 父 进程 也 没 看 到 信号 SIGUSR2。 

组 织 一 个 解决 方案 

有 很 多 不 同 的 方法 来 组 织 你 的 解决 方案 。 下 面 提供 了 一 个 解决 方案 的 框架 ， 在 这 个 框架 中 ， 父 进程 使 
用 了 大 量 的 静态 变量 ， 信 号 处 理 程序 使 用 这 些 变量 来 为 父 进 程 和 两 个 子 进程 保存 时 间 。 这 个 程序 框架 使 用 
信号 来 通知 用 户 进程 的 有 关 时 间 值 ， 程 序 中 需要 结合 进 你 自己 的 信号 处 理 例 程 。 


<sys/time.h> 

<signal.h> 

#include <unistd.h> ‘ 
#include <stdio.h> 

long unsigned int fibonacci(unsigned int n); 


#include 
#include 


// These variables are used to record the accumulated times. They 
// are set by the signal handlers and read by the processes when 
// they report the results. 


static long p_realt_secs 
static long p_virtt_secs 
static long p proft secs 
static struct itimerval 
static struct itimerval 


= 0, cl realt secs = 


= 0, cl virtt secs 
= 0, cl proft secs 
p_realt, cl_realt, 
p_virtt, cl virtt, 


0, c2 realt gecs 
0, c2 virtt _ secs 


= 0, ¢2_proft_secs = 


c2_realt; 
e2_virtt; 


0; 
0; 
0; 





static struct itimerval p_proft, cl_proft, c2 proft; 
main(int argc, char **argv) { 

long unsigned fib = 0; 

int pidl, pid2; 

unsigned int fibarg; 

int status; 


// Get command line argument, fibarg (the value N in the problem 

// statement) : 

// Initialize parent, childl, and child 2 timer values 
p_realt.it_interval.tv_sec = ...; 
p_realt.it_interval.tv_usec 
P_realt.it_value.tv_sec 
p_realt.it_value.tv_usec 


oF 


t.3} 


= a 
// Enable parent's signal handlers 
signal(SIGALRM, ...); 
signal (SIGVTALRM, -)3 
signal(SIGPROF, ...); 


// Set parent’s itimers 
if(setitimer(ITIMER_REAL, ...) == -1) 
perror(“parent real timer set error”); 
if(setitimer(ITIMER_VIRTUAL, ee.) == ~1) 
perror(“parent virtual timer set error”); 


if(setitimer(ITIMER_PROF, ...) == -1) 
perror(”parent profile timer set error”); 
pidl fork(); 
if(pidl == 0) { 
// Enable child 1 signal handlers (disable parent handlers) 


// Enable child 1 signal handlers 
// Set child 1 itimers 


// Start child 1 on the fibonacci program 
fib = fibonacci(fibarg); 
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// Read child 1 itimer values and report them 


getitimer(ITIMER_PROF, ...); 
getitimer(ITIMER_REAL, ...); 
getitimer(ITIMER_ VIRTUAL, ...); 


printf(“\n"); 
printf(“Child 1 fib = %ld, real time = %ld sec, %ld msec\n"”, 
fib, cl1 realt secs, 
elapsed usecs(cl realt.it value.tv sec, 
cl realt.it value.tv usec) / 1000); 
Printt(“Chiid 1 fib = %ld, cpu time = %ld sec, %ld msec\n”, 
fib, cl_proft_secs, 
elapsed _usecs(cl_proft.it_value.tv_sec, 
cl_proft.it_value.tv_usec) / 1000); 
printf(“Child 1 fib = %lid, user time = $id sec, %ld msec\n”, 
fib, cl_virtt_secs, 
elapsed_usecs(cl_virtt.it value.tv_sec, 
cl virtt.it value.tv usec) / 1000); 
printf(“Child 1 fib = %id, kernel time = %ld sec, %ld msec\n", 
fib, delta time(cl_proft, cl_virtt), 
(elapsed_usecs(cl_proft.it_value.tv_sec, 
cl_proft.it_value.tv_usec) / 1000) - 
(elapsed_usecs(cl_virtt.it_value.tv_sec, 
el_virtt.it_value.tv_usec) / 1000)); 
fflush(stdout); 
exit(0); 
} else { 
pid2 = fork(); 
if(pid2 == 0) { 
// Enable child 1 signal handlers 
// Set child 2 itimers 
// Start child 2 on the fibonacci program 
fib = fibonacci(fibarg); 
// Read child 2 itimer values and report them 


} else { /* this is the parent */ 


// Start parent on the fibonacci program 
fib = fibonacci(fibarg); 


// Wait for children to terminate 
waitpid(0, &status, 0); 
waitpid(0, &status, 0); 


// Read parent itimer values and report them 


} 
printf(“this line should never be printed\n”); 


} 


long unsigned int fibonacci(unsigned int n) { 
if(n == 0) 
return 0; 
else if (n == 1 || n == 2) 
return 1; 
else 
return(fibonacci(n-1) + fibonacci(n-2)) 


} 
实验 6.2: 操纵 内 核对 象 


| 本 作业 可 以 在 大 多 数 的 Windows 系统 中 实现 。 


这 个 练习 要 求 你 创建 一 组 循环 进程 ， 它 们 具有 不 同 的 句柄 继承 属性 ， 当 主 进程 决定 整个 的 进程 组 终止 
时 ， 那 么 就 终止 整个 进程 ， 这 可 以 使 用 等 候 计 时 器 来 控制 。 
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部 分 A 

编写 一 个 程序 ， 它 使 用 一 个 等 候 计时 器 来 挂 起 自己 K 秒 ，K 是 一 个 命令 行 参数 。 

部 分 B 

修改 部 分 A 中 的 程序 ， 使 得 它 创 建 N 个 后 台 进程 ， 每 个 进程 都 会 在 一 个 随机 时 间 内 终止 ，N 为 一 个 
命令 行 参数 。 每 个 进程 应 该 将 它 所 有 的 句柄 (除了 线程 句柄 ) 给 它 创 建 的 子 进程 (通过 句柄 继承 )。 在 
“解决 问题 ”部 分 中 有 一 个 子 进程 程序 的 框架 。 

部 分 C 

再 次 修改 控制 程序 ， 使 得 K 秒 过 后 ， 它 将 终止 那些 没有 主动 终止 自己 的 进程 。 如 果 所 有 的 后 台 进程 
都 主动 终止 了 自己 ， 则 控制 进程 能 运行 完整 的 K 秒 。 


背景 


Windows NT 在 它 的 实现 和 它 提供 的 服务 中 充分 使 用 了 对 象 。 然 而 ，Win32 API 并 不 是 面向 对 象 的 接 
O (也 就 是 说 ,为 了 调用 系统 服务 ， 应 用 程序 调用 系统 函数 而 不 是 发 送 消 息 给 系统 对 象 )。 尽 管 Win32 
API 是 一 个 C 接 口 而 不 是 C++ 接口 ， 当 一 个 应 用 得 到 了 一 个 来 自 操作 系统 的 资源 时 ， 资 源 一直 被 当 作 对 
象 的 某 种 形式 。 这 个 练习 考虑 了 对 象 的 多 个 方面 。 

Windows 在 为 进程 分 配 资源 时 ， 创 建 了 一 个 操作 系统 对 象 。 操 作 系 统 对 象 被 分 配 在 操作 系统 空间 中 ， 
并 且 可 以 设置 对 象 的 状态 来 反映 资源 分 配 的 细节 。 因 为 细节 是 在 对 象 内 实现 的 ， 一 般 来 说 ， 其 他 的 软件 如 
果 不 通 过 对 象 的 公共 接口 便 不 能 访问 对 象 的 成 员 数 据 。 更 进一步 说 ， 因 为 操作 系统 对 象 是 在 系统 空间 中 分 
配 的 ， 用 户 模 式 程 序 甚至 不 能 访问 为 内 核对 象 分 配 的 空间 。 这 两 级 保护 是 Windows 安全 对 象 的 基础 。Win- 
dows NT 执行 体 支 持 一 组 固定 数目 的 类 ORAM). Solomon 和 Russinovich [2000] 列举 了 下 列 的 主要 内 
核对 象 类 型 : 

。 对 象 目录 : 包含 了 大 量 其 他 对 象 的 对 象 ，NT 执行 体 使 用 这 种 类 型 来 组 织 各 种 不 同 的 对 象 集 。 
符号 链接 : 可 以 使 用 符号 名 来 引用 另 一 个 对 象 ， 这 种 类 型 就 是 用 来 支持 这 种 能 力 的 。 

。 进程 : 表示 进程 、 特 别 是 进程 描述 表 。 

。 RE: 表示 线程 、 特 别 是 线程 描述 表 。 

。 段 : 用 来 在 进程 地 址 空间 之 间 实 现 共 享 存储 。 

文件 端口 : 当 文件 被 打开 使 用 时 ， 用 来 表示 一 个 文件 描述 表 的 一 种 对 象 类 型 。 

。 BASH: 一 种 对 象 类 型 ， 操 作 系 统 使 用 它 来 实现 用 户 认 证 ， 系 统 的 其 他 部 分 使 用 它 来 作为 一 种 

基本 的 保护 机 制 。 

FH: 它 可 以 捕捉 到 系统 中 动作 (事件 ) 的 发 生 ， 使 得 系统 的 其 他 部 分 在 确定 动作 发 生 时 ， 能 执 

行 相应 的 活动 。 事 件 对 象 是 许多 同步 操作 的 基础 。 

。 5E: 实现 Dijkstra 的 通用 信和 号 量 行为 的 一 个 类 (会 在 第 8 章 解释 )。 

Mutant: 用 来 实现 同步 机 制 的 另 一 个 类 。 它 用 来 为 临界 区 执行 互 斥 。 

。 计时 器 : 用 来 通知 线程 已 经 流逝 了 给 定数 目的 时 间 段 的 一 种 对 象 类 型 ( 见 Sleep O 函数 调用 和 练 
习 中 等 候 计 时 器 的 讨论 )。 

。 队列 : 一 个 类 ， 定 义 了 使 得 一 个 线程 等 候 1/O 操作 完成 的 对 象 。 

键 : 用 来 访问 和 操作 系统 注册 表 中 〈 用 来 保存 计算 机 的 配置 信息 的 地 方 ) 的 信息 的 一 个 类 。 

* Profile: 用 来 度量 进程 中 代码 段 的 执行 时 间 。 可 被 度量 和 程序 统计 工具 使 用 。 

每 个 执行 体 对 象 都 用 信息 进行 了 标准 的 封装 ， 操 作 系统 对 象 管理 器 可 使 用 这 些 信息 来 管理 对 象 和 与 类 
型 相关 的 成 员 数 据 。 这 个 封装 包含 了 一 个 头 部 ， 头 部 中 包含 了 一 些 域 ， 如 对 象 名 、 对 象 引用 描述 和 安全 属 
性 。( 在 头 部 中 也 有 一 些 其 他 的 域 用 来 实现 对 象 模型 ， 但 是 它们 并 没有 包含 在 当前 的 讨论 中 )。 

引用 一 个 对 象 - 

当 一 个 线程 使 用 CreateProcess () 和 CreateThread () 来 创建 另外 的 进程 和 线程 时 ， 它 传递 一 个 名 
字 给 对 象 管理 器 ， 然 后 返回 一 个 句柄 (hande) 和 系统 范围 内 的 标识 。 在 CreateProcess () 情况 下 ， 可 以 
设置 PROCESS _ INFORMATION 数据 结构 ， 使 其 中 含 新 进程 和 新 线程 的 HANDLE 和 DWORD 标识 。cre- 


a 
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ateThread () 返回 指向 新 线程 的 句柄 ， 以 LPDWORD (指向 DWORD 的 指针 ) 参数 返回 线程 标识 符 。 一 旦 一 个 
用 户 线程 得 到 一 个 句柄 ， 它 可 以 在 其 他 的 请 求 中 将 句柄 作为 一 个 参数 传递 给 操作 系统 。 例 如 ， 在 一 个 线程 
创建 了 另 一 个 线程 后 ， 当 它 想 终止 被 创建 的 线程 时 ， 它 可 以 将 句柄 传 回 给 操作 系统 ( 见 图 6-15). 


ChildThreadHandle = CreateThread (...); 


CloseHandle (ChildThreadHandle) ; 


当 操 作 系 统 对象 管 理 器 处 理 引 用 特定 对 象 的 调用 时 ， 它 将 对 象 名 加 入 到 一 组 已 知 对 象 名 中 ， 并 创建 一 
个 具有 头 部 和 体 的 操作 系统 对 象 ， 初 始 化 头 部 中 的 
域 ， 然 后 将 对 象 提供 给 其 他 的 操作 系统 组 件 ， 让 它 
们 填 满 对 象 类 型 相关 的 体 部 分 。 

操作 系统 调用 发 现 想 要 的 对 象 已 经 存在 了 ， 可 
能 是 因为 不 同 的 进程 (RB) 已 经 创建 了 这 个 对 象 。 
在 这 种 情况 下 ， 在 对 象 的 头 部 中 的 一 个 打开 句柄 计 
数 会 加 一 ， 来 指示 现在 有 两 个 句柄 引用 这 个 对 象 。 
对 象 随后 的 打开 操作 将 会 继续 增加 句柄 计数 ， 关 闭 
操作 会 将 句柄 计数 减 一 。 如 果 关 闭 操作 导致 了 句柄 
计数 为 0 (意味 着 没有 用 户 空间 的 句柄 来 引用 这 个 
对 象 )， 操 作 系统 对 象 管理 器 会 从 名 字 空 间 中 删除 这 





图 6-15 句柄 和 句柄 描述 表 
TE: 句柄 是 用 来 引用 NT 执行 体 数据 结构 的 用 户 空 
间 数 据 结构 。 这 可 以 通过 将 一 个 表 的 索引 值 


个 对 象 。( 如 果 以 后 发 生 对 象 引用 ， 那 么 这 个 名 字 会 赋 给 句柄 来 完成 ， 然 后 就 可 以 用 它 作 为 内 核 
重新 填 人 到 名 字 空 间 中 。) 进程 句柄 表 (Process Handle Table) 索引 。 这 

对 象 引 用 一 个 更 复杂 的 情况 是 ， 操 作 系 统 组 件 使 得 用 户 程序 可 以 引用 相应 的 NT 执行 体 对 象 
可 以 引用 操作 系统 对 象 ， 但 是 它们 没 必 要 使 用 一 个 而 不 用 知道 它 的 地 址 。 


句柄 〈 也 就 是 说 ， 它 们 直接 使 用 对 象 地 址 ， 因 为 它 

们 运行 在 内 核 空间 )。 对 象 的 头 部 包含 了 引用 计数 ， 用 来 记录 所 有 对 对 象 引 用 的 次 数 。 用 户 空间 和 内 核 空 
间 打 开 操 作 都 会 使 得 引用 计数 增加 ， 关 闭 操 作 将 引用 计数 减 一 。 如 果 引 用 计数 为 0， 则 对 象 没有 被 任何 软 
件 组 件 使 用 一 一 不 管 是 用 户 空间 组 件 还 是 内 核 空 间 组 件 。 因 此 ， 在 引用 计数 为 0 时 ， 对 象 会 被 释放 掉 
[Solomon and Russinovich, 2000], 

内 核对 象 、 对 象 的 句柄 和 对 象 的 DWORD 标识 之 间 有 什么 关系 昵 ? 正如 在 上 面 所 说 的 ， 内 核对 象 由 操作 
系统 创建 并 存储 在 核心 存储 空间 中 ， 所 以 ， 它 不 能 直接 被 用 户 空 间 的 线程 所 访问 。 当 操作 系统 创建 了 一 个 
对 象 或 开始 使 用 操作 系统 对 象 时 ， 要 有 一 种 机 制 ， 用 户 空间 线程 可 以 利用 它 来 请 求 操作 系统 执行 对 那个 对 
象 的 操作 。 句 柄 是 一 个 用 户 空间 的 32 位 整数 ， 用 来 引用 对 象 。 它 被 设置 为 进程 句柄 表 中 的 一 个 偏 移 量 
{Solomon and Russinovich, 2000; Richter, 1997]。 当 操作 系统 提供 一 个 句柄 给 进程 中 的 线程 时 ， 它 搜索 进 
程 句柄 表 〈 通 过 进程 描述 表 来 找到 进程 句柄 表 )。 当 发 现 空 条 目 时 ， 操 作 系统 在 第 一 个 域 中 填写 对 象 内 核 
空间 地 址 ， 在 第 二 个 域 中 填写 访问 信息 ， 并 在 其 他 域 中 填写 相应 的 信息 。 句 柄 表 是 进程 描述 表 的 扩展 ， 存 
储 在 内 核 空间 中 。 返 回 给 用 户 线程 的 句柄 是 内 核 空间 句柄 表 的 一 个 索引 。 因此 线程 使 用 的 句柄 仅 对 相同 进 
程 地 址 空间 内 的 线程 可 用 。 如 果 线 程 将 一 个 句柄 值 传递 给 另 一 个 进程 内 的 线程 ， 这 个 句柄 值 是 一 个 无 意义 
的 值 。 

安全 属性 

Create< Class> 或 Open< Class> 形 式 的 函数 调用 用 来 请 求 系统 资源 ， 因 此 会 分 配 一 个 内 核对 象 并 返 
回 一 个 句柄 给 调用 线程 。 操 作 系统 对 象 管理 器 保护 机 制 要 求 调 用 者 说 明 它 想 要 对 对 象 的 访问 权限 。 有 一 组 
适用 于 每 个 对 象 的 通用 权限 集 〈 如 读 和 写 ) ， 也 有 一 些 特定 类 型 的 权限 (如 挂 起 对 新 创建 进程 的 访问 )。 在 
Create< class> 操 作 中 ， 对 象 管理 器 检查 调用 者 的 权限 ， 这 是 通过 将 安全 描述 表 (具有 SECURITY DE 
SCRIPTOR 类 型 ) 传递 给 安全 机 制 来 表示 想 要 的 访问 权限 。 安全 机 制 依赖 于 能 鉴别 正在 运行 软件 的 用 户 。 

如 果 访 问 被 许可 ， 安 全 机 制 会 返回 一 组 授予 调用 进程 的 访问 权限 集 ， 并 且 对 象 管理 器 将 这 些 权 限 保 存 
起 来 ， 它 们 是 句柄 列表 中 进程 句柄 描述 表 的 一 部 分 。 当 初始 进程 中 的 线程 使 用 这 个 句柄 时 ， 在 内 核 代码 使 
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用 句柄 描述 表 来 引用 这 个 对 象 之 前 ， 要 将 对 给 定 对 象 的 访问 权限 与 被 授予 的 权限 相 比较 。 
在 第 2 章 中 ，CreateProcess () 被 用 来 创建 新 进程 ， 有 关 安 全 部 分 的 函数 原型 如 下 : 


BOOL CreateProcess( 


LPSECURITY_ATTRIBUTES lpProcessAttributes, 
// pointer to process security attributes 
LPSECURITY_ATTRIBUTES ipThreadAttributes, 
// pointer to thread security attributes 
) 
lpProcessAttributes 和 lpThreadAttributes 参数 都 是 指向 如 下 SECURITY_ATTRIBUTES 数据 结构 的 指针 4: 
typedef struct _SECURITY ATTRIBUTES { // sa 
DWORD nLength; 
LPVOID lpSecurityDescriptor; 


BOOL bInheritHandle; 
} SECURITY_ATTRIBUTES; 


ipSecurityDescriptor 是 一 个 指向 SECURITY_DESCRIPTOR 数据 结构 的 指针 ， 这 个 数据 结构 的 细节 并 没有 
文档 描述 ， 因 为 它 的 域 仅 可 由 Win32 API 函数 来 进行 读 取 和 设置 。 调 用 线程 通过 这 种 方式 来 指定 想 要 的 访 
问 权 限 ， 这 些 权限 要 么 赋 给 新 的 对 象 ， 要 么 用 来 鉴定 对 已 存在 对 象 的 访问 。 例 如 ，Win32 API 函数 GetSe- 
curityDescriptorControl (), SetSecurityDescriptorDacl () 等 可 用 来 设置 SECURITY DESCRIPTOR 中 的 域 。 

安全 属性 参数 的 默认 值 (在 CreateProcess () 调用 中 ) 为 NULL， 意 味 着 在 调用 中 没有 传递 SECURITY 
ATIRIBUTE 数据 结构 。 操 作 系 统 进程 管理 器 (和 对 象 管理 器 ) 将 NULL 参数 解释 为 子 进程 (RATRE, W 
果 这 是 对 子 线程 的 安全 属性 的 话 ) 为 存在 的 对 象 使 用 了 一 个 已 存在 的 SECURITY_DESCRIPTOR， 或 为 创建 的 新 
对 象 使 用 系统 默认 值 。 

如 果 要 限制 子 进程 对 自身 进程 对 象 的 访问 ， 有 必要 创建 一 个 SECURITY_ATIRIBUTE， 然 后 执行 操作 系统 
调用 设置 数据 结构 来 阻止 子 进程 访问 对 象 。 然 而 ， 限 制 子 进程 访问 进程 内 的 对 象 是 不 合 常理 的 ， 相 同 的 安 
全 属性 机 制 可 用 于 每 个 操作 系统 对 象 ， 如 文件 、 存 储 段 等 。 

句柄 继承 | 

进程 句柄 表 中 的 表 项 是 指向 对 象 的 一 个 安全 指针 。 如 果 一 个 线程 有 一 个 句柄 ， 则 它 能 够 引用 句柄 表 中 
的 一 个 表 项 ， 及 内 核 空间 中 相应 的 对 象 。 如 果 没 有 句柄 的 话 ， 则 这 种 引用 是 不 可 能 的 。 如 果 一 个 进程 包含 
了 个 线程 ， 它 们 都 执行 包含 特定 对 象 句柄 的 代码 段 ， 则 在 进程 表 中 将 有 这 个 对 象 的 N 个 不 同 的 句柄 描 
述 表 。 对 此 程序 员 应 当 注 意 ， 通 过 多 个 线程 执行 的 代码 段 可 以 获得 多 少 个 句柄 全。 

当 创 建 一 个 新 进程 时 ， 能 否 引 用 父 进程 中 的 对 象 呢 ?在 有 些 情况 下 ， 这 么 做 是 非常 有 价值 的 一 一 例 
如 ， 人 允许 子 进程 读 取 父 进程 已 经 打开 的 共享 主 存 段 。 而 在 其 他 的 一 些 情况 下 ， 人 允许 子 进程 引用 父 进程 已 打 
开 的 对 象 并 不 是 一 件 明智 的 事情 一 一 例如 ， 如 果 父 进程 打开 了 资源 而 子 进程 并 不 去 使 用 。 在 CreatePro- 
cess () 函数 调用 中 ， 句 柄 继承 标记 参数 bInheritHandles， 用 来 指定 子 进程 是 否 可 以 继承 对 父 进 程 对 象 的 
引用 。 


Bool CreateProcess( ... 
Bool bInheritHandles, // handle inheritance flag 
) T 
如 果 bInheritHandles 为 TRUE， 新 进程 将 会 拥有 创建 进程 可 以 引用 的 对 象 的 句柄 。 也 就 是 说 ， 新 的 进 
程 将 会 创建 新 句柄 为 自己 所 用 ， 并 且 对 每 个 句柄 将 会 在 新 进程 的 句柄 列表 中 有 一 个 新 的 句柄 摘 述 表 ， 对 应 
于 这 个 句柄 引用 对 象 的 句柄 计数 将 会 增加 。 
如 果 创 建 对 象 的 线程 想 要 对 象 不 被 继承 ， 它 可 以 显 式 地 将 一 个 句柄 标识 为 不 可 继承 的 ， 那 么 即使 bIn- 





O ”一 种 常见 的 情形 是 子 线程 通过 执行 一 些 公共 代码 侦 来 获取 句柄 ， 在 判断 出 句柄 是 多 余 的 之 后 ， 关 闭 句 柄 ， 并 删 
除 宛 余 的 句柄 描述 表 。 
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heritHandles 标志 为 TRUE， 新 的 进程 也 得 不 到 不 可 继承 对 象 的 句柄 。 如 果 binheritHandles 标志 为 FALSE, 
则 新 进程 没有 创建 进程 对 象 的 任何 句柄 。 虽 然 你 仅 看 到 在 CreateProcess () 函数 中 使 用 了 继承 标志 ,但 
许多 其 他 创建 新 对 象 的 调用 函数 也 采用 了 一 个 继承 标志 ， 可 以 将 继承 标志 置 为 TRUE 来 说 明 句 柄 是 可 继承 
AY, FALSE 则 为 不 可 继承 的 。 如 果 SECURITY_ATTRIBUTES 数据 结构 中 的 bInheritHandles 域 被 设置 为 FRLSE， 
则 创建 的 对 象 是 不 可 继承 的 。 因 此 ， 即 使 你 并 不 想 要 改变 一 个 对 象 的 安全 访问 的 默认 行为 ， 但 如 果 想 要 将 
这 个 对 象 标志 为 不 可 继承 的 话 ， 也 必须 在 对 象 创建 调用 中 包含 一 个 安全 属性 数据 结构 。 为 了 将 一 个 线程 对 
象 标识 为 在 创建 进程 时 不 被 继承 ， 可 以 编写 如 下 的 代码 段 : 


#include <windows.h> 
#include <stdio.h> 


SECURITY_ATTRIBUTES threadSA; 


// Set threadSA parameter 
threadSA.nLength = sizeof (SECURITY_ATTRIBUTES) ; 
threadSA.lpSecurityDescriptor = NULL; 
threadSA.bInheritHandles = FALSE; 
if(!CreateProcess(NULL, lpCommandLine, NULL, &threadSA, FALSE, 

HIGH_PRIORITY_CLASS | CREATE_NEW_CONSOLE, 

NULL, NULL, &SstartInfo, &processInfo)) { 
fprintf(stderr, “CreateProcess failed on error %d\n", 
GetLastError()); 

ExitProcess(1); 
ye 


将 句柄 传递 给 其 他 的 进程 

当 一 个 线程 获得 一 个 句柄 时 ， 在 线程 所 在 进程 的 句柄 列表 中 会 创建 一 个 句柄 描述 表 。 假 定 线程 想 要 为 
其 他 进程 的 线程 提供 指定 对 象 的 访问 ， 明 显 地 ， 如 果 将 句柄 传递 给 另 一 个 进程 中 的 线程 ， 那 么 这 个 句柄 没 
有 任何 用 处 ， 因 为 它 仅 仅 是 进程 句柄 列表 中 的 一 个 偏 移 量 。 如 果 在 两 个 进程 之 间 有 父子 关系 ， 则 句柄 继承 
可 以 用 来 共享 访问 对 象 。 如 果 没 有 关系 ， 则 或 者 使 用 命名 对 象 ， 或 者 使 用 DuplicateHandles () 函数 来 在 
接收 进程 地 址 空间 内 创建 一 个 新 的 句柄 。 

有 关 “ 对 象 引 用 ”的 讨论 暗示 着 命名 对 象 如 何 被 不 同 的 进程 引用 :有 些 进 程 创建 了 对 象 ， 它 的 名 字 来 
自 系统 全 局 命名 空间 (这 些 名 字 就 像 文件 名 )， 另 一 个 进程 通过 使 用 带 有 正确 的 名 字 的 open 命令 来 得 到 对 
象 的 句柄 。 如 果 安 全 属性 允许 的 话 ， 第 二 个 进程 将 把 它 自己 的 句柄 描述 表 插 人 到 自己 的 句柄 列表 中 ， 然 后 
线程 会 得 到 一 个 句柄 。 

DuplicateHandle () 函数 用 来 显 式 地 在 另 一 个 进程 中 创建 一 个 句柄 : 


Bool DuplicateHandle( 
HANDLE hSourceProcessHandle, 

// handle to process with handle to duplicate 
HANDLE hSourceHandle, // handle to duplicate 
HANDLE hTargetProcessHandle, 

// handle to process to duplicate to 


LPHANDLE lpTargetHandle, // pointer to duplicate handle 
DWORD dwDesiredAccess, // access for duplicate handle 
BOOL binheritHandle, // handle inheritance flag 
DWORD dwOptions ' // optional actions 


) 


在 对 这 些 参数 的 讨论 中 ,我 们 称 包含 了 要 被 复制 的 句柄 的 进程 为 “ 源 ”进程 ， 接 收 新 句柄 的 进程 为 
“目标 ”进程 。hSourceProcessHandle 是 调用 进程 中 的 指向 “ 源 ” 进 程 的 句柄 (目标 进程 中 的 指向 源 进程 的 
句柄 必须 要 有 PROCESS_DUP_HANDLE 许可 )。hSourceHandle 参数 是 源 进 程 句柄 列表 的 偏 移 ， 也 就 是 说 ， 这 个 
句柄 只 在 源 进 程 中 有 意义 。 这 意味 着 在 目标 进程 能 复制 一 个 句柄 到 其 地 址 空间 之 前 ， 必 须 与 源 进 程 通信 以 
获得 hSourceHandle 的 值 。hTargetProcessHandle 是 调用 进程 的 句柄 ，1pTargetHandle 是 一 个 变量 指针 ， 变 
量 将 置 成 被 复制 的 源 进程 句柄 在 目标 进程 句柄 列表 中 的 偏 移 。hTargetProcessHandle 也 必须 有 PROCESS_DUP 
_HANDLE 许可 。 
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可 等 候 的 计时 器 对 象 

这 个 练习 要 求 你 充分 利用 计时 器 对 象 来 控制 线程 行为 。 除 了 为 你 提供 一 个 工具 基于 异步 事件 来 控制 执 
行 外 ， 你 也 可 以 使 用 可 等 候 计 时 器 来 创建 和 处 理 除了 线程 和 进程 以 外 的 其 他 对 象 类 型 。 

Windows NT 4.0 引 进 了 一 个 称 为 可 等 候 计 时 器 的 内 核对 象 类 型 (这 个 Win32 API 函数 在 其 他 的 Win- 
dows 操作 系统 中 都 没有 实现 )。 可 等 候 计 时 器 是 一 个 内 核对 象 ， 它 定时 会 给 进程 发 送信 号 来 通知 已 经 流逝 
了 给 定时 间 量 。 请 求 的 最 小 时 间 间 陋 是 100 ns。 但 并 不 是 每 台 计 算 机 都 能 每 隔 100 ns 更 新 它 的 时 钟 ， 所 以 
这 是 在 现代 计算 机 中 能 达到 的 最 好 的 时 钟 间隔 值 。 可 等 候 计 时 器 尽 可 能 以 100 ns 的 时 钟 滴答 来 测量 时 间 。 

创建 一 个 可 等 候 计 时 器 的 函数 原型 是 ， 

HANDLE CreateWaitableTimer ( 

LPSECURITY_ATTRIBUTES lpTimerAttributes, 

// pointer to security attributes 
BOOL bManualReset, // flag for manual reset state 
LPCTSTR ipTimerName // pointer to timer object name 

3 

lpTimerAttributes 是 一 个 安全 属性 参数 ， 它 的 使 用 和 CreateProcess () 或 者 CreateThread () (JIE 
面 ) 中 的 安全 属性 参数 很 相似 。 如 果 是 创建 计时 器 的 话 ，1lpTimerName 参数 用 来 为 计时 器 分 配 一 个 名 字 ， 
否则 就 是 打开 一 个 存在 的 已 命名 的 计时 器 (在 这 种 情况 下 ，GetLastError () 将 返回 ERROR_ALREADY_EX- 
ISTS) 。bManualReset 参数 用 来 在 可 等 候 计 时 器 发 送信 号 时 ， 控 制 接收 信号 的 线程 的 数目 。 如 果 设置 为 
TRUE， 所 有 等 候 计 时 器 的 线程 都 会 接 到 一 个 通知 ， 要 不 然 仅 有 一 个 线程 会 接 到 消息 。 这 个 函数 返回 可 等 候 
计时 器 的 句柄 。 

一 个 线程 可 以 使 用 OpenWaitableTimer () 来 得 到 一 个 已 经 存在 的 可 等 候 计时 器 的 句柄 ; 


HANDLE OpenWaitableTimer ( 


DWORD dwDesiredAccess, // access flag 
BOOL bInheritFlag, // inherit flag 


LPCTSTR lpTimerName // pointer to timer object name 
3 


dwDesiredAccess 的 值 描述 了 进程 想 要 使 用 可 等 候 计 时 器 的 方式 。 如 果 你 想 要 在 计时 器 发 送信 和 号 时 让 
线程 得 到 通知 ， 为 了 能 够 为 计时 器 设置 时 间 周 期 ， 或 者 拥有 对 所 有 的 计时 器 函数 的 访问 ， 则 使 用 这 个 函数 
( 见 联 机 参考 手册 )。 . 

一 县 创建 了 可 等 候 计 时 器 ， 在 它 产生 信号 之 前 必须 要 对 它 进 行 设置 ， 设 置 可 等 候 计 时 器 的 函数 如 下 : 


BOOL SetWaitableTimer ( 

HANDLE htimer, // handle to a timer object 
Const LARGE INTEGER *pDueTime, 

// when timer will become signaled 
LONG 1Period, // periodic timer interval 
PTIMERAPCROUTINE pfnCompletionRoutine, 

// pointer to the completion routine 
LPVOID lpArgToCompletionRoutine, 

// data passed to completion routine 
BOOL fResume // flag for resume state 


hTimer 域 是 由 创建 或 打开 函数 返回 的 句柄 。pDueTime 是 64 位 FILETIME 格式 (HL Win32 API 的 联机 参 
考 手 册 ) 的 一 个 数 。 


typedef struct _FILETIME { // ft 
DWORD dwLowDateTime; 
DWORD dwHighDateTime; 
} FILETIME; 
其 中 dwLowDateTime 是 文件 系统 格式 中 时 间 的 低 32 f, dwHighDateTime 是 高 32 位 。 你 也 可 以 将 pDueTime 
指定 为 一 个 绝对 时 间或 相对 时 间 ， 通 过 将 64 位 的 时 间 设 置 为 一 个 负 值 〈 见 以 下 的 “解决 问题 ") 来 区 分 相 
对 时 间 和 绝对 时 间 。1lPeriod 参数 指定 通知 之 间 的 时 间 单 位 为 毫秒 (“ms”), ， 如 果 为 0 的 话 ， 则 可 等 候 计 时 
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器 将 产生 一 个 通知 。 

可 等 候 计 时 器 是 Windows NT 的 一 种 机 制 ， 用 来 协调 线程 之 间 的 行为 ，Windows NT 不 同 于 微软 其 他 
的 操作 系统 的 一 个 重要 方面 是 它 支持 通用 的 异步 协同 机 制 。 在 SetWaitableTimer 中 的 以 下 两 个 参数 pfn- 
CompletionRoutine 和 lpArgToCompletionRoutine， 用 来 实现 可 等 候 计 时 器 和 用 户 线程 间 的 异步 协同 的 通用 
形式 ， 称 为 异步 过 程 调 用 (APC)。 现 在 ， 可 以 将 APC 想像 为 过 程 调用 的 一 种 形式 ， 这 个 调用 将 在 随后 的 
某 个 时 刻 被 “调度 " ， 而 不 是 立即 被 “调度 "。 仅 当 有 是 够 的 时 间 时 才 会 确保 函数 被 调用 。 

fResune 标志 有 一 点 星 涩 ,尽管 对 于 计算 机 的 特定 使 用 模式 来 说 ， 它 是 必要 的 。 如 果 可 等 候 计时 器 运 
行 在 处 于 挂 起 模式 的 计算 机 上 ， 且 fResume 为 TRUE， 则 时 间 到 通知 会 重新 恢复 计算 机 。 这 意味 着 你 可 以 编 
写 代码 来 恢复 一 个 挂 起 的 计算 机 并 执行 一 些 动 作 (使 用 APC 机 制 )。 

APC 参数 能 用 来 填充 计时 器 通知 ， 但 是 ， 另 一 个 简化 的 技术 就 是 使 用 WaitForSingleObject ()。 当 一 
个 线程 调用 这 个 函数 时 ， 它 会 被 阻塞 直到 指定 的 对 象 发 通知 给 这 个 线程 。 线 程 也 可 以 创建 可 等 候 计时 器 ， 
对 它 进行 设置 ， 然 后 使 用 WaitForSingledbject () 调用 来 等 待 信号 。WeitForSingleObject () 函数 原型 
如 下 : 

DWORD WaitForSingleObject( | 

HANDLE hHandle; // handle of object to wait for 


DWORD dwMilliseconds; // time-out interval in millisec 
) 


hHandle 参数 是 可 等 候 计 时 器 对 象 的 句柄 。dwMilliseconds 指定 了 线程 愿意 等 待 计时 器 的 最 大 时 间 数 。 
你 可 以 使 用 GetLastError () 来 查看 是 因为 可 等 候 计 时 器 发 送 了 通知 后 函数 返回 了 (WaIT_OBJECT_0) ， 还 
是 由 于 最 大 时 间 限 度 已 经 到 了 (WAIT_TIMEOUT)。 你 也 可 以 将 dwMilliseconds 置 为 INFINITE， 这 样 调用 进 
程 会 一 直 阻 塞 直 到 它 接收 到 来 自 可 等 候 计 时 器 的 通知 ， 它 从 不 会 超时 。 使 用 可 等 候 计 时 器 的 代码 框架 为 : 


HANDLE wTimer; 
LARGE_INTEGER quitTime; 





wTimer = CreateWaitableTimer(NULL, FALSE, NULL); 
// define quitTime 
SetWaitableTimer(wIimer, &quitTime, 0, NULL, NULL, FALSE); 


WaitForSingleObject(wTimer, INFINITE); 


解决 问题 

解释 操作 系统 中 的 这 个 机 制 是 复杂 的 ,但 是 控制 程序 的 组 织 是 非常 简单 的 。 在 这 个 程序 中 ， 你 碰 到 的 
问题 主要 就 是 要 将 细节 弄 清楚 而 已 。 

因为 可 等 候 计 时 器 并 没有 在 NT 4.0 以 前 的 版 本 中 实现 ， 也 没有 在 Windows 9x 或 Windows CE 中 出 现 ， 
你 必须 要 传递 一 个 标志 给 编译 器 ， 让 它 知 道 你 是 在 NT 4.0 版 本 上 工作 。 如 果 你 正在 使 用 Visual C++ ， 选 
择 Project/Setting 菜单 后 会 出 现 project setting MiAHE, HAHN /D_WING2_WINNT = 0x400 作为 编译 器 标志 。 

在 处 理 64 位 文件 时 间 值 时 会 有 一 个 问题 ，Richter [1997] 使 用 了 类 似 于 下 面 的 代码 段 来 创建 适合 
SetWaitableTimer () 使 用 的 参数 : 


_int64 endTime; 
LARGE_INTEGER quitTime; 


// Put the run time, K in endTime 

// (the units will have to be 100 ns) 
quitTime.LowPart = (DWORD) (endTime & OXxFFFFFFFF); 
quitTime.HighPart = (LONG) (endTime >> 32); 


下 面 是 一 个 程序 例子 ， 你 可 以 用 它 来 解决 练习 中 的 “部 分 B"。 这 里 的 思想 就 是 创建 一 个 进程 ， 它 可 
以 终止 自己 也 可 以 不 终止 自己 ， 你 可 以 修改 控制 进程 来 终止 这 个 进程 。 
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#include <windows.h> 
#include <stdio.h> 


int main (int argc, char *argv(]) { 


// Get a value for the number of this client from argv{i] 
printf(“Client %s beginning to run\n”, argv{1]); 
while(TRUE) { 

printf("“Client{%s}: Quit (y or any other character): “, 


argv({1]); 
if(getc(stdin) == ‘y’) break; 
getc(stdin); // throw away NEWLINE 


return(0); 
} 


终止 进程 
有 一 个 Win32 API 调用 ， 它 允许 一 个 进程 终止 另 一 个 进程 ， 想 要 终止 另 一 进程 的 进程 必须 对 指定 的 句 
柄 有 PROCESS TERMINATE 许可 。 函 数 原 型 是 : 
BOOL TerminateProcess { 
HANDLE hProcess, // handle to the process 


UINT uExitCode // exit code for the process 
); 


如 果 用 一 个 进程 句柄 hProcess 和 一 个 无 符号 整 型 exit 代码 uExitCode 来 调用 TerminateProcess ()， 进 程 
管理 器 会 终止 目标 进程 。 这 也 可 以 在 练习 中 使 用 ， 但 它 通 常 仅 在 极端 情况 下 使 用 。 这 个 函数 也 有 一 个 问题 ， 
就 是 它 对 使 用 了 动态 链接 库 (DLL) 的 进程 并 不 起 作用 。DLL 文件 可 以 独立 于 .BE 文件 加 载 ， 一 个 进程 利用 
.EXE 文件 来 执行 它 的 主 程序 ，TerminateProcess () 函数 会 停止 执行 EXE 文件 的 程序 ， 但 是 与 DLL 的 交互 可 
能 不 会 正常 工作 。 在 这 个 练习 中 ， 进 程 没 有 包含 任何 的 动态 链接 库 TerminateProcess () 会 很 好 地 工作 。 





第 7 章 a E 


CPU 调度 指 的 是 在 一 组 就 绪 的 进程 /线程 中 进行 CPU 分 配 。 概 念 上 ， 操 作 系统 调度 程序 是 由 用 于 上 下 
文 切换 的 机 制 和 确定 就 绪 进程 分 配 CPU 顺序 的 策略 构成 的 。 在 现代 操作 系统 中 ， 硬 件 和 进程 管理 器 的 数 
据 结 构 和 算法 实现 了 机 制 。 理 想 情 况 下 ， 调 度 策 略 可 由 系统 管理 员 来 进行 选择 ， 由 它 反映 特定 计算 机 被 使 
用 的 方式 。 实 际 上 ， 调 度 策略 是 作为 操作 系统 进程 管理 器 的 一 部 分 而 实现 的 。 这 一 章 引进 了 机 制 并 考虑 了 
两 类 通用 的 策略 : 非 剥夺 式 和 剥夺 式 算法 。 非 剥夺 式 算 法 允许 进程 一 旦 获得 处 理 器 ,就 可 以 一 直 运 行 直 到 
结束 。 而 剥夺 式 算 法 可 以 使 用 内 部 计时 器 和 调度 程序 来 中 断 正 在 运行 的 进程 ， 并 将 CPU 分 配给 一 个 更 高 
优先 级 的 就 绪 进 程 。 


7.1 概述 


对 共享 资源 的 使 用 进行 调度 是 必要 的 。 例 如 ， 如 果 公 司 有 一 个 会 议 室 ， 每 次 仅 有 一 个 组 可 以 使 用 会 议 
室 。 如 果 有 许多 组 要 竞争 使 用 会 议 室 ， 则 需要 一 个 人 来 充当 会 议 室 计划 员 : 一 个 组 想 要 在 会 议 室 开 一 个 会 
议 时 ， 小 组 代表 来 联系 会 议 室 计划 员 ， 并 请 求 在 开会 的 那天 将 会 议 室 分 配给 他 们 使 用 。CPU 调度 程序 就 像 
一 个 会 议 室 计划 员 : 在 进程 /线程 想 要 使 用 CPU 时 ， 它 会 向 CPU 调度 程序 发 出 一 个 请 求 。 当 CPU 可 用 时 ， 
它 就 会 被 分 配给 发 出 请 求 的 进程 /线程 。 

与 第 1 章 提 到 的 一 样 ， 多 道 程 序 设计 操作 系统 在 一 个 时 间 间 隔 内 ， 人 允许 多 个 进程 加 载 到 主 存 中 ， 并 通 
过 时 分 复 用 技术 让 在 主 存 的 进程 中 的 线程 共享 CPU。 在 多 道 程序 设计 环境 中 ， 线 程 〈 尤 其 是 线程 的 用 户 ) 
感觉 到 的 行为 是 ， 线程 和 其 他 线程 是 同时 执行 的 。 事 实 上 在 单 CPU 的 计算 机 上 ， 某 一 时 刻 只 有 一 个 线程 
在 执行 。 但 是 ， 因 为 所 有 的 虚拟 机 看 起 来 好 像 是 同时 执行 的 ， 我 们 说 它们 是 并 发 (concurrently) 执行 的 ; 
由 于 CPU 非常 高 的 复 用 速率 ， 看 起 来 操作 好 像 是 同时 完成 的 。 

在 现代 计算 机 系统 中 ， 多 道 程序 设计 是 必 不 可 少 的 。 多 道 程序 设计 不 仅 允 许 系统 支持 多 个 人 机 窗口 界 
面 ， 而 且 ， 系 统 的 基本 操作 也 依赖 于 它 。 多 道 程 序 设计 的 另 一 个 原因 就 是 线程 执行 并 发 1/O 操作 的 需要 。 
由 于 1/0 操作 通常 比 执行 CPU 指令 需要 的 时 间 多 几 个 数量 级 ， 所 以 在 多 道 程序 设计 系统 中 ， 当 一 个 线程 
因为 等 候 I/O 操作 完成 而 进入 阻塞 状态 时 ， 可 将 CPU 分 配给 另外 一 个 线程 使 用 。 

机 器 的 通常 状态 是 ; 有 多 个 就 绪 进 程 都 在 等 待 CPU 变 成 可 用 。 当 CPU 变 成 可 用 时 ， 调 度 程 序 
(scheduler) 从 就 绪 线 程 中 选择 一 个 来 使 用 CPU。 该 运行 线程 放弃 CPU 使 用 时 〈 即 进入 就 绪 或 阻塞 状态 )， 
会 从 等 待 使 用 CPU 的 线程 组 中 选择 另 一 个 线程 来 执行 。 调 度 策略 (scheduling policy) 确定 什么 时 候 线程 应 
该 放弃 使 用 CPU 和 选择 哪个 就 绪 线 程 来 执行 。 调 度 机 制 (scheduling mechanism) 确定 进程 管理 器 如 何 时 分 
复 用 CPU， 线 程 怎样 被 分 配 CPU 和 放弃 CPU (上 下 文 交换 的 细节 )。 从 线程 的 角度 看 ， 调 度 程序 是 系统 的 
一 个 组 件 ， 它 会 使 得 线程 从 就 绪 状 态 转 为 运行 状态 ， 在 某 些 情况 下 ， 会 从 运行 状态 转 到 就 绪 状态 。 

图 7-1 展示 了 单 CPU 系统 中 线程 调度 的 系统 视图 。 当 一 个 新 的 线程 进入 系统 时 ， 它 被 置 成 就 绪 状 态 并 
链 人 到 调度 程序 的 就 绪 队 列 中 。 在 单 CPU 系统 中 ， 一 次 仅 能 有 一 个 线程 使 用 CPU， 也 就 是 在 某 一 时 刻 仅 
有 一 个 线程 处 于 运行 状态 。 运 行 着 的 线程 可 能 由 于 下 面 4 个 原因 而 放弃 使 用 CPU: 

© 线程 执行 完成 并 离开 系统 。 

四 线程 请 求 一 个 资源 ， 但 资源 管理 器 确定 不 能 为 与 线程 关联 的 进程 分 配 资源 。 正 如 在 6.6 节 所 描述 

的 ,线程 进入 阻塞 状态 并 且 进 入 资源 管理 器 的 等 待 队 列 。 最 后 ， 资 源 管理 器 为 关联 的 进程 分 配 请 求 
的 资源 ， 线 程 会 变 为 就 绪 状 态 并 进入 就 绪 队 列 。 

各 线程 决定 自愿 放弃 使 用 CPU 并 返回 到 就 绪 状 态 。 

8 线程 不 自愿 地 释放 CPU， 因 为 系统 决定 剥夺 线程 对 CPU 的 使 用 ， 它 通过 将 线程 的 状态 改变 为 就 绪 

状态 ， 将 线程 从 CPU 上 移 走 ， 并 将 它 置 人 就 绪 队 列 。 
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剥夺 或 自愿 放弃 





图 7-1 线程 调度 
注 : 当 CPU 由 其 他 的 线程 使 用 时 ， 处 于 就 绪 状 态 的 线程 会 在 就 绪 队 列 中 一 直 等 待 。 当 调度 程序 选择 线程 来 执行 
时 ， 被 选中 线程 会 变 为 运行 状态 并 开始 使 用 CPU。 线 程 可 能 会 随后 请 求 一 个 不 可 用 资源 ， 要 么 它 在 资源 管 
理 器 池 中 等 待 ， 要 么 它 进 入 就 绪 状 态 ，CPU 被 其 他 的 线程 使 用 。 


调度 机 制 提供 了 工具 和 环境 来 控制 线程 在 不 同 状态 和 队列 间 的 转移 〈 见 图 7-1)。 调 度 策略 定义 了 调度 
程序 该 从 就 绪 队 列 中 选择 哪个 线程 来 执行 ， 以 及 什么 时 候 线程 被 剥夺 使 用 CPU. 


7.2 调度 机 制 


在 前 面 讨论 的 会 议 室 调度 问题 中 ， 图 表 是 用 来 表示 房间 分 配 的 机 制 。 可 以 填写 图 表 来 显示 会 议 室 被 预 
订 的 时 间 和 可 用 的 时 间 。 如 果 经 理 对 某 些 会 议 室 有 优先 权 ， 像 会 议 桌 室 ， 则 调度 策略 会 阻止 工程 师 使 用 会 
议 桌 室 来 开会 。 

在 操作 系统 中 ，CPU 调度 机 制 依赖 于 硬件 特征 一 一 最 重要 的 是 计算 机 是 否 配置 了 计时 器 。 调 度 程 序 的 
其 余部 分 是 在 操作 系统 中 实现 的 ， 如 下 面 所 描述 的 。 


7.2.1 进程 调度 程序 组 织 


概念 上 ， 调 度 机 制 由 几 个 不 同 的 部 分 组 成 。 图 7-2 表示 了 调度 程序 中 的 三 个 逻辑 部 分 : 排队 器 、 分 派 
器 和 上 下 文 切换 器 。 

a 当 一 个 进程 /线程 变 为 就 绪 状 态 时 ， 它 的 描述 表 会 被 更 新 来 反映 这 种 变化 ， 并 且 排 队 器 (enqueuer) 
组 件 将 描述 表 指 针 放 人 等 候 CPU 的 进程 列表 中 (图 中 的 就 绪 队 列 ) 。 排 队 器 在 将 进程 插入 就 绪 队 列 
时 ， 可 以 计算 为 该 进程 分 配 CPU 的 优先 级 ， 并 作为 将 来 考虑 什么 时 候 要 将 进程 从 就 绪 队 列 中 移出 
的 根据 。 

n 当 调 度 程序 把 CPU 从 一 个 正在 执行 的 进程 中 切换 到 另 一 进程 执行 时 ， 上 下 文 切 换 器 (context 
switcher) 组 件 将 保存 所 有 CPU 寄存 器 的 内 容 ( PC，IR， 条件 状 态 ， 处 理 器 状态 ， 以 及 ALU 状 
态 )， 保 存 到 正在 被 移出 的 线程 的 线程 描述 表 中 。 

B 当 应 用 程序 进程 从 CPU 移出 后 ， 分 派 器 (dispatcher) 就 被 激活 了 (当然 ， 为 了 运行 分 派 器 ， 需 要 
将 分 派 器 的 上 下 文 装 人 CPU, CPU 的 上 下 文 就 从 应 用 程序 进程 切换 到 调度 程序 的 分 派 器 部 分 )。 分 
派 器 从 就 绪 队 列 中 选择 一 个 进程 ， 而 后 完成 从 它 自 己 到 选择 的 进程 间 的 又 一 次 上 下 文 切换 ， 从 而 分 
配 CPU 给 选 定 的 进程 。 


7.2.2 保存 上 下 文 
在 CPU 被 复 用 时 ,“ 旧 ”的 进程 会 从 CPU 上 移出 ,“ 新 ”的 进程 会 使 用 CPU 开始 执行 。 回 忆 一 下 4.2 
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就 绪 队列 





图 7-2 调度 程序 
注 : 调度 程序 会 将 就 绪 进 程 /线程 变 为 运行 状态 ， 也 会 将 运行 进程 /线程 变 为 就 绪 状 态 。 它 用 排队 器 来 将 进程 置 
人 就 绪 队 列 ， 分 派 器 为 进程 分 配 CPU， 上 下 文 切 换 器 来 将 一 个 进程 从 CPU 上 移出 ， 并 使 另 一 个 进程 占用 
CPU 运行 。 


节 中 的 内 容 ，CPU 包含 了 许多 寄存 器 ， 它 们 保存 了 与 当前 正在 运行 的 进程 相关 的 数据 和 状态 。 当 进程 的 执 
行 暂停 时 ， 所 有 CPU 寄存 器 的 内 容 必须 保存 到 进程 的 描述 表 中 ,在 进程 恢复 执行 之 前 ， 这 些 寄存 器 内 容 
可 以 拷贝 回 物理 CPU 寄存 器 ( 见 图 7-3)。 上 下 文 切换 对 性 能 的 影响 比较 大 ， 因 为 现代 计算 机 有 大 量 的 通 
用 寄存 器 和 状态 寄存 器 需要 保存 。 例 如 ， 大 多 数 的 现代 CPU 中 结合 了 32 或 更 多 32 位 或 64 位 的 寄存 器 ， 
还 有 状态 寄存 器 。 调 度 程序 中 的 上 下 文 切换 部 分 通常 使 用 一 般 的 load 和 store 操作 指令 来 保存 寄存 器 内 
容 ， 这 意味 着 上 下 文 切换 需要 : 

(ntm) bXK 个 时 间 单 元 


老 线程 描述 表 


= E 


1 
= 


= 


7-3 上 下 文 切换 
注 ， 上 下 文 切换 就 是 将 CPU 寄存 器 上 的 信息 保存 起 来 ， 并 将 另 一 进程 的 相应 信息 写 人 寄存 器 中 。 描 述 表 用 来 保 
存 进程 线程 没有 运行 时 CPU 寄存 器 的 一 份 拷贝 。 
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来 保存 处 理 器 的 状态 ， 假 设 处 理 器 带 有 n 个 通用 寄存 器 和 mz 个 状态 寄存 器 ， 保 存 一 个 寄存 器 内 容 需 要 b 
个 store 操作 ， 每 个 store 指令 需要 K 个 时 间 单 位 。 在 最 坏 的 情况 下 ， 当 应 用 程序 被 复 用 时 ， 至 少 会 发 生 
两 对 (四 个 ) 上 下 文 切换 。 在 第 一 对 中 ， 操 作 系统 需要 保存 原来 运行 进程 的 上 下 文 ， 然 后 分 派 器 的 上 下 文 
被 加 载 。 第 二 对 是 分 派 器 被 移出 ， 然 后 被 选择 的 应 用 进程 加 载 到 CPU 上 执行 。 
处 理 器 可 能 需要 50 纳 秒 〈10 " 秒 ) 在 主 存 中 保存 一 个 单位 信息 (也 就 是 ，5b x K = 50 ns) ,假设 处 理 器 
与 主 存 之 间 为 32 位 数据 总 线 ， 并 且 每 个 寄存 器 为 32 位 宽 。 
D 每 个 寄存 器 需要 50 纳 秒 存储 它 的 内 容 。 
ERE, WAA 32 个 通用 寄存 器 和 8 个 状态 寄存 器 ， 那 么 保存 寄存 器 的 总 时 间 为 40 x 50 纳 秒 (或 2 
微 秒 )。 
B 需要 另外 2 微 秒 恢复 另 一 个 线程 的 寄存 器 内 容 来 执行 (忽略 分 派 器 选择 另 一 个 线程 的 时 间 ) 。 
四 当然 ， 当 分 派 器 必须 在 应 用 线程 间 运 行 时 ， 由 于 分 派 器 的 上 下 文 切 换 和 用 于 选择 下 一 个 运行 进程 花 
费 的 时 间 ， 上 下 文 切换 的 时 间 会 大 于 4 微 秒 。 
一 个 1 GHz 的 处 理 器 能 够 在 大 约 2 纳 秒 内 执行 一 条 寄存 器 指令 ， 这 意味 着 在 上 下 文 切换 的 4 微 秒 期 
间 ， 处 理 器 能 够 执行 2000 条 指令 去 做 有 用 的 工作 (相对 于 完成 上 下 文 切换 的 工作 而 言 )。 所 以 在 考虑 处 理 
RAA GABE) 操作 时 ， 上 下 文 切换 的 开销 是 一 个 重要 的 因素 。 
在 一 些 硬件 系统 中 ， 使 用 两 组 或 更 多 组 处 理 器 寄存 器 来 减少 上 下 文 切换 时 间 。 处 理 器 在 核心 态 中 使 用 
一 组 寄存 器 ， 而 另 一 组 寄存 器 用 于 用 户 态 线程 。 那 么 在 上 下 文 切换 过 程 中 ， 当 在 操作 系统 和 应 用 程序 代码 
之 间 来 回转 换 执 行 时 ， 就 只 需 花 费 改 变 指 向 当前 寄存 器 组 指针 的 时 间 。 


7.2.3 自愿 的 CPU 共享 


调度 程序 机 制 中 一 个 关键 的 部 分 是 调用 调度 程序 的 方式 。 一 种 最 简单 的 方法 就 是 假定 每 个 进程 /线程 
都 会 周期 性 地 明确 调用 调度 程序 ， 自 愿 地 共享 CPU。 一 些 硬件 设计 中 包括 了 一 条 特殊 的 yield 机 器 指令 ， 
它 允 许 一 个 进程 执行 来 释放 CPU. yield 指令 类 似 于 一 个 过 程 调 用 指令 ， 因 为 它 保存 了 下 一 条 要 执行 的 指 
令 地 址 ， 然 后 分 支 转 移 到 一 个 任意 的 地 址 执行 。 与 过 程 调用 指令 不 同 


的 是 ，yield 指令 保存 的 地 址 不 是 放 在 调用 进程 的 栈 中 ， 而 是 放 在 一 Ye © PC; 
个 特定 的 主 存 位 置 。yield 指令 的 功能 与 中 断 引起 的 硬件 活动 也 有 相 PC = menmory[s] 





似 之 处 〈 参 见 第 4 章 )。 

在 图 7-4 中 ， 当 进程 pj 执行 指令 yield (r,s) if, S% r 是 由 , 

、 —, 、 、 图 7-4 yield 指令 
pi 的 进程 标识 符 相关 的 函数 确定 的 地 址 ， 通 常 是 保存 在 pi 的 进程 描 注 ， 机 器 指令 将 PC 的 内 容 保存 在 
述 表 中 的 一 个 地 址 。 可 通过 当前 运行 的 是 哪个 进程 来 确定 地 址 To 例 内 存 位 置 r 处 ， 并 将 另 一 位 
如 ， 通 过 结合 运行 进程 的 状态 寄存 器 来 确定 。 当 一 个 进程 加 载 时 ， 把 置 s 的 地 址 加 载 进 PC。 
进程 描述 表 中 内 部 标识 符 域 中 的 内 容 ， 放 和 人 进程 状态 寄存 器 。 参 数 
就 可 以 通过 关于 状态 寄存 器 值 的 一 个 函数 计算 出 来 ， 例 如 ， 通 过 一 个 
表 查 找 操作 。 如 下 : 


r=f (p,.identification) =f (process _ status _ register. identification) 


因为 第 一 个 参数 可 从 CPU 寄存 器 推断 出 来 ， 我 们 可 以 用 yield (*,s) 来 表示 yield 命令 。 

参数 s 也 与 进程 有 关 ， 是 yield 指令 已 经 执行 后 ， 将 开始 运行 的 那个 进程 。 当 pı 在 执行 时 ， 但 在 
yield 指令 执行 之 前 ，memory [r] 的 内 容 是 不 相关 的 。 在 yield 指令 完全 执行 之 后 ，memory [r] 中 就 包含 
着 yield 指令 后 的 下 一 条 指令 地 址 ， 并 且 PC 已 经 被 设置 成 恢复 执行 进程 p,， 其 中 : 


s=f (p,. identifier) 


CPU 从 执行 Yield 指 令 的 进程 切换 去 执行 另 一 个 程序 ， 它 上 次 的 活动 PC 值 存储 在 memory [s] 中 。 例 
如 ， 假 设 memory [s] 中 包含 着 p, 上 次 的 PC 值 ， 当 进程 pi 执行 yield 指令 时 ， 它 让 出 CPU 的 控制 给 进 
程 p,， 当 然 p, 以 后 可 以 通过 结合 执行 yield (*,r) 以 重新 启动 进程 pi。 

如 果 有 多 个 进程 竞争 使 用 CPU， 通 过 选择 某 个 主 存 地 址 (如 scheduler， 其 中 包含 了 pz 程序 的 人 口 
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点 )， 则 p 能 够 作为 调度 程序 运行 。 然 后 它 能 够 让 每 个 线程 在 释放 CPU 时 ， 都 执行 yield (*, scheduler) 
(参见 图 7-5)。 当 调度 程序 作为 p 运行 时 ， 它 会 选择 某 个 就 绪 的 进程 pi RP: 


s=f (p;. identifier) 


然后 执行 Yield (*,s)。 


CG [oo, (*,sheduler); 












sheduler 





s = select (-"); 
yield(*,s); 


yield(*,sheduler) ; 


操作 系统 接口 


图 7-5 使 用 yield 指令 进行 调度 
注 : 每 个 应 用 进程 /线程 都 让 出 处 理 器 给 运行 调度 程序 的 守护 进程 。 当 调度 程序 开始 运行 时 〈 从 它 的 进程 描述 表 
中 恢复 上 下 文 )， 它 选择 下 一 个 进程 来 使 用 CPU， 并 让 出 CPU 给 被 选择 进程 。 





使 用 自愿 CPU 共享 的 调度 程序 称 为 非 剥夺 式 调度 程序 。 在 后 面 的 讨论 中 ,假定 yield 指令 已 被 徐 人 
到 系统 中 ， 名 为 yield ()。 这 种 多 道 程序 设计 的 形式 在 Xerox Alto 个 人 计算 机 中 被 采用 [Thacker et al., 
1981]。 很 多 Xerox 的 开发 者 在 Macintosh 机 器 产生 之 前 便 在 Apple 公司 工作 ,调度 中 的 协同 操作 技术 被 结 
合 进 了 Macintosh 操作 系统 的 早期 版 本 之 中 。 

建立 依赖 yield 指令 的 系统 会 引起 一 个 问题 : 进程 可 能 不 是 自愿 地 与 另 一 个 进程 合作 。 一 个 进程 不 按 
时 执行 yield 指令 ， 这 样 会 阻塞 所 有 其 他 进程 使 用 处 理 器 ， 直 到 那个 进程 终止 ， 或 者 它 请 求 资源 ， 才 会 让 
出 处 理 器 。 如 果 运 行进 程 恰好 在 执行 一 个 没有 资源 请 求 的 无 限 循环 ， 那 么 这 个 问题 就 会 变 得 尤为 严重 。 这 
个 进程 从 不 会 放弃 处 理 器 ， 因 此 所 有 就 绪 进程 会 永远 等 待 。 如 果 系 统 自身 能 够 定期 中 断 运 行 的 进程 ， 这 个 
问题 就 可 以 完全 避免 ， 也 即使 用 非 自愿 CPU 共享 方式 。 


7.2.4 非 自 愿 的 CPU 共享 


在 这 种 方式 下 ， 中 断 系统 能 够 定期 强制 中 断 任何 进程 的 执行 ， 即 它 能 够 强制 一 个 进程 有 效 地 执行 
yield 指令。 这 可 以 通过 结合 一 个 间隔 计时 器 interval timer) 设备 来 完成 ， 只 要 计时 器 到 时 间 ， 就 会 产生 
一 个 中 断 。 间 隔 计时 器 的 行为 像 一 个 炸弹 计时 器 。 为 了 使 用 计时 器 ， 系 统 程序 员 要 选择 一 个 时 间 间隔 ， 设 
置 好 间隔 计时 器 设备 ， 然 后 继续 进行 其 他 的 处 理 ， 当 特定 的 时 间 间 隔 到 期 时 ， 计 时 器 就 会 引发 一 个 中 断 。 

在 图 7-6 中 的 IntervalTiner 过 程 总 结 了 间隔 计时 器 的 基本 操作 。 间 隔 计 时 器 硬件 每 隔 一 个 实时 时 名 
单位 (tick) 引发 一 个 中 断 一 一 例如 ， 对 所 有 的 石英 振荡 时 间 T， 设 置 InterruptRequest 变量 ， 表 示 计 时 
器 硬件 中 断 请 求 标志 位 的 设置 。 那 么 效果 就 是 ， 每 K x T 时 间 单位 ， 中 断 请 求 标志 位 将 会 被 设置 ， 而 间隔 
(K = 时 钟 单位 数 ) 能 够 通过 调用 SetInterval () 来 指定 ， 如 图 所 示 。 因 而 称 之 为 可 编程 间隔 计时 器 (pro- 


grammable interval timer). 
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IntervalTimer(){ 
InterruptCount = InterruptCount - 1; 
if(InterruptCount <= 0) { 


InterruptRequest = TRUE; 
InterruptCount = K} 
} 
} 


SetInterval(<programmableValue>) { 
K = <programmableValue>; 
InterruptCount = K; 

} 





图 7-6 间隔 计时 器 
注 : IntervalTimer () 算法 表示 了 间隔 计时 器 设备 的 行为 。 它 对 K 进行 倒 计 数 ， 当 计数 为 0 时 ， 引 发 一 个 中 
Wi. SetInterval () 表示 了 驱动 程序 可 以 发 送 给 设备 的 一 个 命令 ， 用 来 改变 中 断 之 间 的 时 间 间 隔 。 


每 K 个 时 钟 单位 会 发 生 一 次 中 断 ， 因 而 引起 硬件 时 钟 控制 器 激活 中 断 处 理 程 序 。 计 时 器 设备 的 设备 
处 理 程 序 调用 调度 程序 进行 重新 调度 ， 而 无 需 正 在 运行 进程 的 任何 动作 ， 这 样 保 证 了 调度 程序 每 K 个 时 
钟 单 位 至 少 被 激活 一 次 。 

使 用 非 自 愿 CPU 共享 技术 的 调度 程序 称 为 剥夺 式 调度 程序 (preemptive scheduler)。 即 使 一 个 特定 进 
程 在 执行 一 个 无 限 循环 ， 它 也 不 可 能 阻塞 其 他 进程 的 运行 ， 因 为 间隔 计时 器 会 定期 地 激活 调度 程序 ， 从 而 
执行 其 他 的 进程 。 


7.2.5 性 能 


因为 调度 程序 完全 控制 了 什么 时 候 给 进程 分 配 CPU， 所 以 它 对 多 道 程序 设计 的 计算 机 性 能 有 着 惊人 的 
影响 。 如 果 调 度 程序 在 一 个 进程 就 绪 时 就 选择 它 ， 那 么 该 进程 就 会 在 就 绪 队列 中 等 待 较 少 的 时 间 ， 就 是 说 
一 且 它 需要 CPU， 就 可 以 准备 使 用 。 

男 一 方面 ， 如 果 进 程 经 常 被 分 派 器 忽略 ， 则 它 花费 在 就 绪 队 列 中 等 待 分 配 CPU 的 时 间 ， 与 完成 执行 
所 需要 的 CPU 时 间 相 比 ， 前 者 可 能 多 得 多 。 这 样 的 话 ， 即 使 硬件 很 快 ， 性 能 也 很 低 。 

在 进程 变 为 就 绪 后 ， 进 程 等 候 多 长 时 间 的 性 能 开销 由 调度 策略 和 上 下 文 交换 时 间 来 确定 。 在 这 一 节 的 
开始 介绍 过 ， 上 下 文 切 换 的 开销 是 很 大 的 。 然 而 ， 策 略 驱动 的 决定 对 性 能 有 更 大 的 影响 ， 因 为 它们 可 能 引 
起 无 限 的 等 待 时 间 。 等 我 们 了 解 一 些 不 同 的 策略 后 ， 就 会 明白 这 些 情况 为 什么 会 发 生 了 。 

分 析 家 在 过 去 30 年 中 对 调度 程序 进行 了 大 量 的 研究 ， 它 被 重视 的 原因 有 这 样 几 个 : 

B 多 道 程序 设计 操作 系统 的 设计 者 知道 ， 从 各 个 线程 的 观点 出 发 ， 调 度 程序 的 行为 是 影响 性 能 的 

关键 。 

m 那些 设计 者 相信 ， 调 度 程序 的 行为 对 整个 系统 的 行为 的 影响 也 很 关键 。 

n 调度 程序 研究 中 所 用 的 方法 论 已 经 在 运筹 学 中 很 好 地 建立 起 来 了 。 

量 调度 程序 是 计算 机 科学 中 的 一 个 理论 问题 。 

这 儿 给 出 策略 设计 的 几 个 问题 : 一 般 来 说 ， 在 一 个 进程 变 为 就 绪 时 ， 在 就 绪 队 列 中 也 还 有 其 他 的 进 
程 。 当 分 派 器 选择 一 个 进程 在 处 理 器 上 运行 时 ， 它 应 该 遵循 什么 准则 从 就 绪 进 程 中 选择 一 个 进程 来 执行 
呢 ? 如 果 进 程 一 直 被 分 派 器 忽略 ， 那 么 它 不 会 得 到 完成 执行 所 需 的 CPU 时 间 ， 这 种 现象 称 为 俄 死 (starva- 
tion), SAKE, KSEE PRAT. Pin, REA 一 张 备用 的 《机 票 ， 只 要 有 贵宾 用 户 也 想 
用 备用 机 票 乘 飞 机 ， 你 就 可 能 得 不 到 任何 飞机 座位 。 

调度 策略 必须 为 选择 哪个 进程 来 执行 定义 准则 。 系 统管 理 员 或 系统 设计 者 基于 计算 机 的 使 用 方式 并 使 
用 本 节 描述 的 机 制 来 实现 策略 选择 。 一 些 策略 着 眼 于 可 预测 的 性 能 ， 另 一 些 更 强调 公平 共享 ， 有 些 则 试图 
为 特定 种 类 的 线程 进行 优化 。 在 每 种 情况 下 ， 性 能 决定 了 策略 的 选择 。 下 面 我 们 来 详细 地 讨论 策略 。 


7.3 策略 选择 
调度 策略 是 操作 系统 研究 中 的 一 个 经 典 问题 ， 从 20 世纪 80 年 代 到 90 年 代 间 ， 它 变 得 不 是 那么 热门 








A RR 159 





了 。 但 是 现在 ， 在 支持 流 媒 体 的 系统 中 它 又 开始 变 得 很 重要 了 ， 这 是 因为 流 媒体 应 用 要 求实 时 期 限 的 调度 
支持 。 


7.3.1 调度 程序 的 特征 


CPU 调度 与 已 经 研究 了 许多 年 的 其 他 类 型 调度 很 相似 ， 可 以 把 CPU 看 做 银行 的 出 纳 员 ， 线 程 可 以 看 
作 是 与 出 纳 员 进行 交互 来 办 理 银行 业务 (存款 、 取 款 、 贷 款 、 转 帐 等 ) 的 顾客 。 有 些 银行 顾客 可 能 要 花费 
很 长 时 间 来 进行 复杂 的 交易 ， 其 他 的 顾客 可 能 仅 需要 几 分 钟 就 可 以 办 理 完 交 易 了 。 银 行 管理 者 对 调度 策略 
非常 感 兴趣 ， 他 们 需要 确定 : 排队 的 队列 会 有 多 长 ， 是 否 需 要 增加 一 名 出 纳 员 ， 出 纳 员 是 否 应 该 只 处 理 存 
款 和 取款 业务 (没有 其 他 的 服务 ) 等 。 

选择 策略 的 准则 是 什么 呢 ? 

m 如 何 设计 调度 程序 为 竞争 的 进程 分 配 CPU， 以 满足 外 部 的 目标 要 求 ? 

m 应 该 基于 外 部 优先 级 来 分 配 CPU 吗 ? 

m 应 该 尽 可 能 地 满足 公平 分 配 的 原则 吗 ? 

EB 应 该 试图 让 执行 时 间 短 〈 长 ) 的 线程 有 高 的 优先 级 吗 ? 

如 果 是 一 个 实时 系统 ， 那 么 进程 调度 必须 满足 特定 的 时 间 期 限 。 如 果 是 一 个 分 时 系统 ， 可 能 强调 如 下 
要 求 ， 即 每 个 用 户 或 线程 在 每 个 时 间 单 位 内 ， 都 要 公平 地 共享 处 理 器 , 或 者 最 小 化 用 户 的 响应 时 间 。 所 以 
一 个 调度 策略 的 选择 标准 将 会 部 分 取决 于 操作 系统 的 目标 ， 这 些 目标 可 能 强调 进程 的 优先 级 、 公 平 性 、 整 
体 资 源 使 用 情况 、 最 大 化 吞吐 量 、 平 均 或 最 大 周转 时 间 、 平 均 或 最 大 响应 时 间 、 最 佳 的 系统 可 用 性 ,以 及 
服务 期 限 等 不 同 要 素 。 

现代 操作 系统 中 的 调度 算法 基本 上 采用 内 部 优先 级 的 方法 ， 当 CPU 可 以 使 用 时 ， 一 个 进程 的 内 部 优 
先 级 (intemal priority) 或 简称 优先 级 ， 将 决定 分 派 器 选择 一 个 进程 执行 的 次 序 。 给 每 个 进程 分 配 一 个 优 
先 级 是 可 能 的 ， 因 而 可 以 实现 前 面 所 提 到 的 任意 一 般 策 略 。 例 如 

里 在 外 部 优先 级 调度 模式 中 ， 每 个 用 户 被 分 配 一 个 静态 优先 级 数 。 当 代表 用 户 任务 的 进程 被 创建 时 ， 

进程 中 的 线程 就 使 用 一 个 内 部 优先 级 ， 它 是 赋 给 用 户 的 外 部 优先 级 的 一 个 函数 。 

B 优先 级 可 以 通过 动态 环境 来 确定 ， 如 线程 等 待 的 时 间 数 或 相对 的 剩余 时 间 期 限 。 

如 果 目 标 是 公平 地 共享 CPU， 那 么 当 每 K 个 时 间 单 位 中 有 个 进程 就 绪 ， 则 每 个 进程 应 该 分 配 的 
CPU 时 间 为 K/n 个 时 间 单 位 。 可 以 通过 增长 就 绪 进 程 的 优先 级 ， 减 小 使 用 CPU 进程 的 优先 级 的 方法 来 实 
现 公 平地 共享 CPU。 其 他 调整 优先 级 来 体现 策略 的 方式 将 在 随后 的 章节 中 讨论 。 

在 使 用 中 断 实行 非 自愿 共享 CPU 的 系统 中 ， 在 策略 设计 中 还 有 一 个 额外 的 自由 度 ， 如 果 进 程 管理 器 
在 复 用 CPU 时 ， 使 用 间隔 计时 器 来 控制 ， 就 存在 所 谓 的 时 间 定 量 (time quantum)， 或 最 大 时 间 量 一 一 也 
称 为 时 间 片 长 度 〈time slice jength)。 时 间 定 量 是 计时 器 中 断 之 间 的 时 间 量 (忽略 调度 程序 的 开销 时 间 )， 
因而 它 由 间隔 计时 器 设置 的 时 间 间 隔 值 来 确定 。 时 间 片 长 度 可 能 小 于 最 大 时 间 量 ， 如 果 进 程 在 时 间 定量 期 
' 闻 请 求 资源 并 释放 CPU， 因 而 在 间隔 计时 器 中 断 之 前 ，CPU 可 以 被 重新 调度 。 如 果 发 生 了 这 种 情形 ， 那 
么 被 分 配 了 处 理 器 的 进程 将 按 正常 情况 分 配 一 个 满 的 时 间 定 量 ， 所 以 调度 程序 必须 可 以 重新 设置 中 断 计时 
器 。 注 意 ， 如 果 硬 件 仅 支持 自愿 复 用 方式 ， 那 么 就 没有 办 法 限制 一 个 进程 可 能 持续 使 用 CPU 的 时 间 数 ， 
因而 在 那些 系统 中 ， 不 可 能 在 调度 策略 中 使 用 时 间 定 量 的 思想 。 

给 定 就 绪 队 列 中 的 一 组 特定 的 进程 (已 知 使 用 处 理 器 的 时 间 量 )， 假 设 在 就 绪 队 列 进程 被 服务 期 间 ， 
没有 新 的 进程 加 入 到 就 绪 队 列 中 ， 那 么 使 用 剥夺 式 调 度 方法 ,根据 特定 的 调度 目标 ， 就 可 以 计算 出 最 优 调 
Æ (optimal schedule)。 最 佳 算法 计算 时 间 定 量 的 数 -一 一 CPU 分 配给 每 个 进程 的 时 间 数 一 -然后 枚 举 出 所 
有 可 能 的 调度 次 序 。 基 于 最 优 的 标准 ， 通 过 系统 地 考虑 每 一 种 调度 次 序 ， 就 可 以 选 出 最 佳 策略 。 

这 种 方法 有 几 个 不 切实 际 的 假定 ; 

E 在 服务 当前 的 进程 时 ， 来 了 一 个 新 的 进程 。 这 就 意味 着 每 次 有 新 进程 到 来 时 都 要 重新 进行 调度 

计算 。 

看 在 每 个 进程 运行 之 前 ， 必 须知 道 它 的 实际 运行 时 间 ， 而 这 几乎 是 不 可 能 的 。 

a 如 果 就 绪 队 列 中 有 ”个 进程 ， 使 用 列举 的 方法 ， 那 么 算法 的 耗 时 量 几 乎 到 O (n); 这 意味 着 调度 
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程序 可 能 花费 比 实际 服务 进程 还 要 多 的 时 间 ， 去 计算 最 优 调度 。 
7.3.2 一 个 调度 研究 模型 


在 描述 一 些 代表 性 的 调度 算法 之 前 ， 先 来 定义 一 个 形式 化 的 进程 模型 ， 我 们 可 以 使 用 它 来 描述 调度 策 

略 。 假 设 

P= {pl0<i<n} 
是 一 组 现代 进程 。 在 实现 中 ， 每 个 进程 p; 由 一 个 描述 表 来 表示 ， 这 个 描述 表 指 定 了 执行 在 进程 中 的 一 系 
列 线程 1p;,;| ， 每 个 线程 包含 了 一 个 状态 域 S (zp;,;)。 状 态 可 能 是 运行 、 就 绪 或 阻塞 ， 因 此 我 们 说 
S (pij) © {运行 ,就绪 ， 阻 塞 |。 

下 面 是 比较 调度 策略 的 一 些 通 用 性 能 标准 : 

图 服务 时 间 r (p): 一 个 线程 结束 之 前 ， 处 于 运行 状态 的 时 间 量 。 

m 等 待 时 间 W (pj): 在 线程 第 一 次 转 人 运行 状态 之 前 ， 在 就 绪 队 列 中 的 等 待 时 间 。 

AE 户 ,; 的 周转 时 间 Try ( 户 ,)) :从 进程 第 一 次 进入 就 绪 状 态 时 刻 开始 ， 到 进程 最 后 一 次 结束 运 

行 状态 的 时 刻 ， 这 期 间 的 时 间 量 。 

换 句 话说 ， 服 务 时 间 表 示 进 程 将 使 用 CPU 去 完成 有 用 工作 的 时 间 量 ; 等 待 时 间 是 进程 从 处 理 器 接收 
到 第 一 个 服务 单位 所 等 待 的 时 间 量 ; 周转 时 间 是 在 进程 就 绪 以 后 ， 到 完成 进程 执行 的 所 有 时 间 。 

进程 模型 和 它 的 时 间 度 量 ， 可 以 用 于 比较 每 种 算法 的 性 能 特征 。 一 般 模 型 必须 要 调整 以 适用 于 各 种 特 
殊 的 操作 系统 环境 。 在 一 个 典型 的 批 处 理 多 道 程序 设计 系统 中 ， 周 转 时 间 是 最 重要 的 性 能 指标 ， 因 为 它 反 
映 了 用 户 等 待 计算 机 结果 的 时 间 量 。 所 以 系统 的 平均 周转 时 间 确 定 了 处 理 一 个 进程 (或 作业 ) 的 平均 时 
E, 平均 周转 时 间 的 倒数 就 是 系统 的 吞吐 率 (throughput rate)， 单 位 是 每 分 钟 作业 数 。 在 批 处 理 系统 中 ， 
作业 周转 时 间 在 技术 上 与 进程 周转 时 间 不 同 ， 作 业 周 转 时 间 包 括 完成 假 脱 机 输入 输出 (spooling)、 主 存 分 
配 以 及 调度 的 时 间 。 因 为 批 处 理 系统 中 着 重 强调 作业 ， 而 不 是 进程 ， 所 以 作业 周转 时 间 就 是 我 们 最 关心 的 
性 能 指标 。 

在 分 时 系统 中 ， 强调 线程 执行 的 单个 阶段 会 更 有 意义 一 一 如 处 理 完 一 次 用 户 请 求 的 命令 所 用 时 间 。 例 
如 ， 执 行 一 个 命令 的 时 间 可 以 分 成 等 待 时 间 (由 于 处 理 器 竞争 ) 和 服务 时 间 两 个 部 分 ， 交 互 用 户 最 关心 的 
是 ， 获得 机 器 某 种 形式 的 响应 所 需 的 时 间 ， 所 以 等 待 时 间 一 一 在 分 时 系统 中 也 称 为 响应 时 间 (response 
time) ， 就 是 最 受 关心 的 性 能 指标 。 , 

图 7-1 指出 了 执行 线程 M) 在 操作 系统 的 不 同 部 分 流动 (线程 从 就 绪 到 运行 ， 到 阻塞 ， 再 回 到 就 
绪 等 ) 。 然 而 ， 调 度 程序 忽略 了 资源 管理 行为 的 细节 ， 仅 着 重 于 就 绪 队 列 和 CPU 的 管理 。 所 有 调度 程序 使 
用 的 操作 模型 的 简化 如 图 7-7 所 示 。 简 化 的 模型 着 重 于 线程 处 于 就 绪 或 运行 状态 时 ， 管理 线程 的 一 些 必 要 
操作 ， 所 有 资源 管理 的 细节 都 参照 资源 管理 器 。 在 这 个 简化 的 模型 中 ， 当 线 程 第 一 次 进入 就 绪 队 列 时 ， 它 
WR CPU 服务 。 线 程 请 求 服务 的 时 间 量 一 般 来 说 是 不 确定 的 : 请 求 会 一 直 执行 直到 线程 放弃 CPU， 进 入 
阻塞 状态 〈 由 于 资源 请 求 原因 ) ， 或 者 执行 完成 。 线 程 的 整个 执行 次 序 被 分 成 一 系列 的 “ 微 线程 ”， 从 线程 
被 创建 开始 执行 到 首次 阻塞 ， 然 后 从 阻塞 状态 转移 到 就 绪 状 态 ( 见 下 面 示例 中 更 多 的 细节 讨论 ) 。 | 

在 图 7-7 中 ， 从 CPU 到 就 绪 队列 的 虚线 表示 了 线程 自愿 放弃 CPU, 或 由 于 时 钟 中 断 线程 被 剥夺 使 用 
CPU 的 情况 。 剥 夺 式 算法 基于 优先 级 计算 的 概念 ; 具有 最 高 优先 级 的 进程 应 该 一 直 是 当前 使 用 处 理 器 的 进 
程 。 如 果 一 个 进程 当前 正在 使 用 处 理 器 ， 有 一 个 更 高 优先 级 的 进程 进入 了 就 绪 队 列 ， 使 用 CPU 的 进程 应 
该 被 移出 并 返回 到 就 绪 队 列 中 ， 直 到 它 再 次 成 为 系统 中 最 高 优先 级 的 进程 为 止 。 剥夺 式 算 法 通常 与 使 用 中 
断 实 行 非 自愿 CPU 共享 的 系统 相 联系 ， 而 非 剥 夺 式 算法 是 与 自愿 CPU 共享 系统 相 一 致 的 。 


| 





示例 : 分 解 一 个 进程 成 多 个 小 进程 
假设 一 个 线程 p;,;， 其 计算 和 资源 请 求 〔1/O 操作 ) 是 交替 分 布 的 ， 因 此 它 有 K 次 不 同 的 时 间 需 要 处 
理 器 ， 并 且 有 K 次 不 同 的 时 间 需 要 完成 1/O 操作 。 我 们 想像 户 ,可 以 分 解 为 上 个 小 的 “ 微 线 程 ”， Pi,j,1, 
Pijs oeeo Pijao TRE Py RSA, BP ps 打算 是 作为 一 个 不 可 中 断 的 过 程 来 执行 的 ， 尽 管 剥 夺 式 
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调度 程序 在 调度 进程 pj 时 ， 还 将 会 把 每 个 时 间 ziy 再 分 成 小 时 间 量 。 现 在 线程 p;, 的 服务 时 间 可 以 写 为 : 


T (bij) Sajilt tjt. t Tijk 


剥夺 或 自愿 放弃 





图 7-7 简化 的 处 理 器 调度 模型 
注 : 在 简化 的 模型 中 ， 资 源 管理 延迟 被 名 略 了 。 这 个 调度 模型 着 重 于 对 连续 的 CPU 请 求 的 时 间 分 析 。 


回想 一 下 第 5 章 中 所 讲 的 计算 限制 和 I/O 限制 进程 ， 下 面 更 为 精确 地 讨论 一 下 它们 的 特征 。 如 果 一 个 

进程 请 求 & 个 不 同 的 I/O 操作 ， 导 致 了 & 次 请 求 服务 时 间 5,;,1 被 插入 : 
di,j,1， di,j,2, seed di j,k 
它们 表示 了 完成 设备 I/O 所 需 的 时 间 。 因 此 ， 进 程 请 求 CPU 服务 加 上 10 服务 的 时 间 总 量 为 : 
Tijat dijat tijat dijo, te +T jkt die 

在 一 个 计算 限制 的 进程 中 ，c;,;,1 的 值 与 4;,;,1 相 比 要 大 一 些 ， 尽 管 每 个 z,;,1 的 值 与 其 他 的 +,j;,1 的 值 
不 同 。 而 在 一 个 1/ 〇 限制 的 进程 中 ，z;,;,1 的 值 与 4;,;,1 相 比 要 小 一 些 。 
E 





7.4 IFE 


在 非 剥 夺 调 度 算法 中 ， 多 许 任 一 进程 /线程 -一 且 被 分 配 处 理 器 ， 可 以 运行 到 结束 。 在 使 用 非 剥 夺 调 度 
算法 的 系统 中 ， 没 有 从 CPU 返回 就 绪 队 列 的 路 径 〈 图 7-7 中 的 虚线 )。 一 旦 进程 被 分 配 CPU， 它 会 一 直 使 
用 到 完成 逻辑 任务 ， 然 后 释放 CPU 给 调度 程序 。 

非 剥 夺 式 算法 是 从 面向 人 的 系统 中 如 何 进行 工作 调度 的 典型 研究 成 果 借 鉴 而 来 的 。 在 那些 系统 中 ， 如 
在 银行 、 机 场 或 超市 中 ,确定 人 们 恕 何 被 调度 接受 服务 ,而 一 旦 人 们 开始 接受 服务 ， 就 会 被 服务 到 任务 完 
成 ， 而 不 是 中 途 转换 给 另 一 个 人 服务 。 因 为 这 种 方法 是 直观 的 ， 所 以 在 进程 管理 中 自然 被 使 用 。 该 方法 也 
可 用 于 不 需要 中 上 断 激活 调度 程序 的 系统 ， 当 每 次 线程 被 分 配 CPU 后 ， 它 会 保持 CPU 直到 完成 逻辑 任务 ， 
然后 它 决定 释放 CPU 给 另 一 个 线程 使 用 。 





示例 ; 估计 系统 负载 
不 同 的 调度 算法 从 就 绪 队 列 中 选择 线程 的 标准 可 能 不 同 ， 这 取决 于 系统 的 性 能 目标 。 为 了 评价 这 些 标 
准 的 大 概 效果 ， 设 计 者 面临 两 种 选择 ; 
由 分 析 给 定 的 算法 ， 并 根据 假设 的 服务 负载 预测 每 种 算法 的 性 能 。 
四 考虑 一 个 具体 的 实际 负载 ， 并 简单 地 报告 实际 负载 下 算法 的 行为 表现 。 
本 书 的 基本 目标 是 考察 各 种 调度 的 策略 ， 而 不 是 从 事 预 测 性 能 的 详细 研究 。 尽 管 如 此 ， 在 比较 不 同 的 
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算法 时 ， 性 能 也 是 必须 要 考虑 的 。 你 也 可 以 通过 观察 性 能 指标 (如 平均 值 和 概率 分 布 ) 来 分 析 性 能 。 

图 7-7 中 所 示 的 系统 操作 模型 ， 能 够 用 于 预测 在 特定 负载 下 性 能 的 一 个 方面 。 系 统 负载 可 以 通过 新 进 
程 到 达 就 绪 队 列 的 速率 ， 以 及 服务 时 间 t+(p;) 的 特性 来 表示 ; 用 4 表示 新 进程 进入 就 绪 队 列 的 平均 到 达 
速率 (mean arrival rate) (速率 单位 为 进程 数 / 时 间 单 位 ， 即 每 个 时 间 单 位 内 进入 就 绪 队 列 的 进程 数 ， 其 中 
1A 为 平均 到 达 时 间 )。 用 w 表示 平均 服务 速率 (其 中 1/p Ae (p) 的 平均 值 )。 如 果 我 们 忽略 上 下 文 切 
换 时 间 ， 并 假设 CPU 有 足够 的 能 力 处 理 负 载 ， 那 么 CPU 忙 的 时 间 片 断 可 以 表示 为 : 

o = àX1/u = A/p 

如 果 到 达 速 率 4 大 二 服务 速率 jy (% > y，、 意 味 着 >1)， 那 么 CPU 将 会 饱和 (总 是 有 更 多 的 工作 等 待 
处 理 )， 而 不 依赖 于 系统 所 采用 的 调度 算法 。 由 于 进程 到 达 速 率 比 它们 被 服务 的 速率 大 ， 所 以 任意 有 限 长 
度 的 就 绪 队列 将 会 溢出 。 系 统 只 有 在 4+<jy (<1) 的 情况 下 才能 到 达 稳 定 状态 。 如 果 系统 在 条 件 o> 1 下 
运行 ， 其 中 条 件 p> 1 要 求 任 意 长 的 就 绪 队 列 ， 因 此 这 种 条 件 下 系统 的 长 期 运行 也 是 会 有 问题 的 。 

例如 ， 假 设 进程 到 达 系 统 的 速率 为 10 个 线程 每 分 钟 ( 即 1 = 10 进程 /分 钟 )， 每 个 作业 的 平均 服务 时 
闻 为 3 秒 ( 即 1 =3/60=1/20 分钟 /线程 ， 或 者 y=20 线程 分钟)， 那 么 系统 负载 为 : 

O=A/p= BSH 10 进程 /每 分 钟 20 进程 =0.5= 50% 





7.4.1 先 来 先 服务 


在 先 来 先 服 务 (first-come-first-served，FCFS) 调度 策略 中 ， 按 请 求 处 理 器 的 次 序 指定 线程 优先 级 。 而 
线程 的 优先 级 是 由 排队 器 根据 所 有 到 来 线程 的 时 间 稚 计算 得 到 的 ， 然 后 让 分 派 器 选择 时 间 玲 最 早 的 线程 。 
另外 一 种 方法 是 ， 就 绪 队 列 可 以 组 织 成 一 个 简单 的 先进 先 出 的 数据 结构 (其 中 包含 的 是 每 个 线程 描述 表 的 
入口 点 )， 排 队 器 增加 线程 到 队 尾 ， 而 分 派 器 从 队列 的 头 移 走 线程 。 

FCFS 算法 容易 实现 ， 它 忽略 了 服务 时 间 以 及 其 他 的 一 些 标准 在 周转 或 等 待 时 间 方 面 对 性 能 的 影响 。 
但 FCFS 在 一 些 有 特殊 需求 的 系统 中 通常 不 能 很 好 地 达到 要 求 ， 所 以 不 是 经 常 使 用 。 

下 面 考虑 一 个 FCFS 算法 的 实际 应 用 例子 ， 然 后 检查 性 能 指标 。 假 设 就 绪 队 列 中 有 S 个 线程 ， 如 
表 7-1 所 示 。 进 一 步 假设 它 们 进 和 人 就绪 队列 的 次 序 为 pos Pi Pa pa pa R FCFS 调度 算法 ， 过 程 如 
图 7-8 所 示 。 l 











表 7-1 示例 负载 
i t (pi) 
0 350 
1 125 
2 475 
3 250 
4 75 
0 350 475 950 1200 1275 
P ?| ”> | » e] 
l 图 7-8 FCFS 调度 
HE: 在 FCFS 算 法 中 ， 进 程 以 它们 到 达 的 顺序 调度 。 在 这 种 情况 下 ,调度 程 序 将 CPU 分 配给 po RE pi po 


p3 和 pao 


我 们 可 以 通过 观察 图 7-8 表现 的 Gantt 图 中 的 FCFS 调度 ， 来 确定 每 个 线程 的 周转 时 间 。 








TrpndPo) = T(po) = 350 

TrendP 1) = CP) + TrpqPo)) = 125 + 350 = 475 
TrendP>) = (EPD + Trp,P1)) = 475 + 475 = 950 
TrendP3) = (Tp3) + TrpsAp))) = 250 + 950 = 1200 
Trend Ps) = (CP4) + TrppdP3)) = 75 + 1200 = 1275 


从 而 平均 周转 时 间 为 : 
Trea = (350 + 475 + 950 + 1200 + 1275) /5 = 4250/5=850 


从 Gantt 图 中 ， 我 们 可 以 确定 等 待 时 间 为 : 
Wip) = 0 
Wip) = TrendPo) = 350 
W(p,) = 7 ZrandPi ) = 475 
Wps) = TrendP2) = 950 
W(p,) = Trend\P3) = = 1200 


所 以 平均 等 待 时 间 为 : 
= (0 + 350 + 475 + 950 + 1200) /5 = 2975/5=595 





| 
示例 : 预测 FCFS 的 等 待 时 间 
在 FCFS 调度 算法 中 ， 你 可 以 预测 系统 中 一 个 线程 的 等 待 时 间 。 假 设 我 们 知道 服务 速率 yw，L 为 线程 
到 达 时 就 绪 队 列 的 长 度 。 那 么 我 们 就 可 以 估计 在 新 线程 p 开始 接受 服务 之 前 ， 它 会 在 队列 中 等 待 的 时 
间 为 : 
W (p) =L (1/p) +12 (tu) = L/ut 1/ (2p) 
下 面 说 明了 这 个 表达 式 的 合理 性 : SS BAA PE Mb A SS Oe 个 时 间 单 位 ， 
LL (iWx) 就 是 工 个 线程 的 所 有 处 理 时 间 。 已 经 使 用 CPU 的 线程 平均 时 间 是 它 的 服务 时 间 的 一 半 ， 即 
1⁄2 (1/4) ARH FCFS 策略 ， 当 线程 p 到 达 时 ， 只 与 当时 队列 中 的 线程 是 相关 的 ， 而 随后 到 达 的 线程 将 会 
在 线程 p 之 后 被 服务 。 
在 示例 中 ， 我 们 通过 计算 前 四 个 线程 的 平均 服务 时 间 (1/1 或 z 的 平均 值 )， 就 能 够 估计 W (ps) 的 
值 ， 它 在 Gantt 图 中 的 值 是 1200。 
= (350+ 125+ 475 +250) 4= 1200/4 = 300 时 间 单 位 
当 p, 到 达 时 ，L = 3， 因 而 p, 的 估计 等 待 时 间 为 ; 
W (p4) =L/e+1/ (2p) =3/ (1/300) +150= 1050 





7.4.2 最 短 作业 优先 


假设 所 有 线程 的 服务 时 间 都 事先 知道 一 一 一 种 特殊 情形 。 在 最 短 作业 优先 (shortest job next, 缩写 为 
SJN。 也 称 为 shortest job first， 缩 写 为 JF) 调度 算法 中 ， 选 择 需要 最 小 服务 时 间 的 线程 作为 最 高 优先 级 的 
作业 。 线 程 pi 的 周转 时 间 ， 是 就 绪 队列 中 所 有 服务 时 间 比 p; 小 的 线程 的 服务 时 间 之 和 ， 因 为 它们 将 在 p: 
之 前 被 调度 。 

SIN 算法 中 ， 因 为 在 服务 时 间 长 的 线程 之 前 先 服务 时 间 短 的 线程 ， 所 以 它 最 小 化 了 平均 等 待 时 间 ， 但 
同时 以 牺牲 需 求 服务 时 间 长 的 线程 作为 代价 。 如 果 就 绪 队 列 饱和 ， 那 么 当 短 服 务 时 间 线 程 获得 服务 时 ， 服 
务 时 间 长 的 线程 往往 留 在 就 绪 队 列 中 。 在 极端 的 情形 下 ， 其 中 系统 没有 空闲 时 间 ， 那 么 服务 时 间 长 的 线程 
将 永远 得 不 到 服务 。 这 种 服务 时 间 长 的 线程 的 饿 死 现象 ， 是 该 调度 算法 的 一 个 严重 的 问题 。 

再 次 假定 就 绪 队 列 中 包含 的 线程 如 表 7-1 所 示 ， 在 这 儿 线 程 的 到 达 次 序 是 不 相关 的 ， 只 要 在 分 析 问 题 
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之 前 ， 所 有 的 线程 都 已 经 在 队列 中 就 可 以 。 在 这 个 例子 中 ， 假 定 就 绪 队 列 中 的 作业 在 进行 服务 时 ， 没 有 其 
他 的 作业 〈 进 程 /线程 ) 到 达 。 采 用 SIN 调度 算法 ， 过 程 如 图 7-9 所 示 。 由 于 r (p4) =75 是 最 短 的 服务 
时 间 ， 因 而 ps 是 第 一 个 被 调度 的 线程 ; 由 于 r (p1) =125, 因 而 pi 下 一 个 被 调度 ; 如 此 类 推 。 


0 75 200 450 800 1275 
图 7-9 SIN 调度 


注 : 在 SJN 算法 中 ， 进 程 以 服务 〈 执 行 ) 时 间 长 短 的 次 序 来 调度 。 因 为 ps 有 最 少 的 服务 时 间 (75)， 所 以 它 第 
一 个 调度 。 下 一 步 ，SJB 调度 程序 将 让 p 执行 ， 因 为 它 的 服务 时 间 是 剩 下 的 作业 中 最 小 的 。 


根据 Gantt 图 所 示 ， 我 们 计算 如 下 : 


TrpndPo) = Tpo) + Tt(p3) + t(p,) + T(p,) = 350 + 250 + 125 + 75 = 800 
Trend) = T(p,) + T(p,) = 125 + 75 = 200 


Tirna P) = TP) + Tpo) + Tp3) + t(p,) + t(p,) = 475 + 350 + 250 + 125 + 75 
= 1275 


TrrndP3) = Tp3) + Tp) + t(p,) = 250 + 125 + 75 = 450 
Trpndp4) = TP) = 75 


从 而 平均 周转 时 间 为 : 
Tīra = (800 + 200 + 1275 + 450 + 75) /5 =2800/5= 560 
我 们 可 以 确定 等 待 时 间 为 ; 

W (po) = 450 
W (p) = 75 
W (p2) = 800 
W (p3) = 200 
W (p4) =0 

所 以 平均 等 待 时 间 为 : 


W= (450 + 75 + 800 + 200 + 0) /5 =1525/5= 305 
假设 由 一 个 SN 调度 算法 策略 来 控制 CPU 的 分 配 ， 其 中 6 = 1-2, e 为 某 个 很 小 的 数值 。 随 着 有 新 进 
程 到 达 ， 它 们 的 服务 时 间接 近 于 平均 服务 时 间 1 人， 那么 极 少数 要 求 服务 时 间 很 长 的 进程 ( 比 平 均 大 得 
多 )， 会 比 平均 到 来 的 进程 具有 较 低 的 优先 级 。 由 于 CPU 利用 率 很 高 ， 就 绪 队 列 中 总 会 有 两 个 或 更 多 的 进 
程 ， 结 果 是 要 求 服务 时 间 很 长 的 进程 会 被 铁 死 ， 即 使 条 件 p= 1<1 成 立 。 


7.4.3 优先 级 调度 


在 优先 级 调度 中 ， 是 基于 外 部 分 配 的 优先 级 来 为 进程 /线程 分 配 CPU 的 (在 下 面 的 解释 中 ， 小 的 数字 
具有 较 高 的 优先 级 ， 有 的 调度 程序 使 用 相反 的 顺序 )。 进 程 的 外 部 优先 级 可 能 通过 用 户 的 身份 (如 “重要 
人 物 具 有 高 的 优先 级 ")、 任 务 的 特性 〈 如 “ 当 温 度 低 于 一 个 阔 值 时 进程 启动 加 热 器 ") ， 或 者 某 种 其 他 的 准 
则 所 确定 。 

优先 级 调度 策略 常常 使 用 静态 优先 级 ， 意 味 着 一 个 线程 的 优先 级 只 计算 一 次 ， 并 且 从 不 会 改变 。 一 个 
更 先进 的 方法 是 使 用 动态 优先 级 ， 它 可 以 根据 近来 得 到 的 服务 来 动态 地 调整 优先 级 。 

在 SN 中， 静态 优先 级 调度 算法 可 能 使 得 低 优先 级 的 线程 会 狐 死 ， 但 是 这 种 现象 可 以 通过 使 用 动态 优 
先 级 来 解决 : 假定 优先 级 赋值 函数 的 一 个 参数 是 线程 等 候 的 时 间 数 量 ， 它 等 候 的 时 间 越 长 ， 它 的 优先 级 变 
得 越 高 (减少 它 的 优先 数 )。 这 种 策略 可 用 来 消除 饿 死 问题 。 

表 7-2 描述 了 线程 负载 情况 (除了 每 个 进程 增加 了 优先 级 一 项 外 ， 其 余部 分 与 表 7-1 是 -- 样 的 )。 采 用 
优先 级 调度 的 过 程 如 图 7-10 所 示 。 
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R7-2 ” 带 静 态 优 先 级 的 示例 负载 








i T (pi) È 先 级 
0 350 5 
1 125 2 
2 475 3 
3 250 1 
4 075 4 
0 250 375 850 925 1275 


PA 7-10 优先 级 调度 
注 : 在 优先 级 调度 算法 中 ， 进 程 是 基于 它们 的 静态 优先 级 的 次 序 被 调度 的 。 因 为 p 的 优先 级 为 1 (最 高 )， 它 首 
先 被 调度 。 下 一 步 ， 调 度 器 将 为 pi 分 配 CPU， 因 为 它 的 优先 级 是 剩 下 作业 中 最 高 的 。 


我 们 做 如 下 计算 : 
TrandPo) = ro) + rD4) +TD)+TrD)+TP)=350+75+475+125+250 
= 1275 


TrgndP1) = Tp1) + T(p,) = 125 + 250 = 375 

TrendP) = T(P,) + T(p,) + Tp3) = 475 + 125 + 250 = 850 

TrrndP3) = T(p3) = 250 

Trends) = T4) + TP) + tp) + Tp3) = 75 + 475 + 125 + 250 = 925 


从 而 平均 周转 时 间 为 : 
Trea = (1275 + 375 + 850 + 250 + 925) /5 = 3675/5 =735 
我 们 可 以 确定 等 待 时 间 为 : | 
. W (po) = 925 
W (p1) = 250 
W (p2) = 375 
W (p3) =0 
W (p4) =850 
所 以 平均 等 待 时 间 为 : 
W= (925 + 250 + 375 + 0 + 850) /5 = 2400/5=480 


7.4.4 期 限 调度 


在 硬 实 时 系统 中 ， 常 常 要 求 指定 的 线程 必须 在 某 个 时 间 期 限 之 前 执行 完成 。 因 此 性 能 测试 的 关键 ， 就 
看 系统 是 否 能 够 满足 这 些 进程 的 调度 期 限 ， 而 不 用 测试 周转 和 等 待 时 间 。 其 结果 是 这 些 调 度 程 序 必 须要 完 
全 知道 每 个 进程 的 最 大 服务 时 间 。 在 周期 性 的 调度 中 ， 线 程 有 一 个 反复 出 现 的 服务 时 间 和 期 限 ， 所 以 期 限 
在 进程 生命 中 的 每 个 周期 内 都 要 得 到 满足 。 只 有 在 调度 程序 能 够 保证 满足 进程 所 要 求 期 限 的 情况 下 ， 这 个 
进程 才能 进入 就 绪 队 列 等 待 。 . 

在 流 媒 体系 统 中 ， 为 了 防止 在 音频 或 视频 信号 的 处 理 过 程 中 出 现 抖动 (不 规则 的 信息 传送 ) MEER (K 
W) 现象 ， 必 须要 求 期 限 服务 。 在 过 程控 制 系统 中 ， 期 限 可 能 是 由 读 取 外 部 传感器 信号 的 需求 来 建立 的 。 

假设 在 我 们 的 例子 中 是 一 组 带 有 期 限 的 进程 ， 如 表 7-3 所 示 。 可 能 有 几 种 不 同 的 调度 都 可 以 满足 期 限 
的 要 求 ， 参 见 图 7-11 中 的 三 种 调度 。 其 中 中 间 一 种 是 采用 所 谓 的 最 短期 限 优先 调度 (earliest deadline first 
scheduling) 策略 的 例子 ， 它 是 一 种 最 优 的 期 限 调度 算法 。 
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表 7-3 带 期 限 的 示例 负载 
rT (pi) 期 OR 


350 575 
125 550 





urne ojs 
只 
par 
a 
= 
© 
a 
© 


0 75 200 550 1025 1275 


6 75 425 550 1025 1275 


图 7-11 使 用 期 限 调度 的 几 种 可 能 调度 
注 : 在 期 限 调度 中 ， 进 程 被 调度 并 且 每 次 调度 都 要 满足 它 的 期 限 ， 在 图 中 的 三 个 调度 序列 中 ， 都 满足 了 每 个 进 
程 的 期 限 。 中 间 的 一 个 是 最 短期 限 优先 调度 策略 的 例子 。 


7.5 剥夺 式 策略 


在 和 剥夺 式 调度 算法 中 ， 分 配 CPU 给 就 绪 队 列 中 具有 最 高 优先 级 的 线程 ， 只 要 最 高 优先 级 线程 请 求 
CPU， 所 有 低 优 先 级 线程 就 要 让 出 CPU。 所 以 只 要 一 个 线程 进入 就 绪 状 态 ， 且 它 的 优先 级 高 于 正在 使 用 
CPU 的 线程 的 优先 级 ， 就 能 够 立即 中 断 正在 执行 的 线程 ， 即 每 次 一 个 线程 进入 就 绪 状 态 后 ， 就 会 调用 调度 
程序 。 另 外 ， 当 每 次 间隔 计时 器 超时 ， 即 经 过 一 个 时 间 定 量 时 ， 调 度 程序 也 会 被 调用 。 

剥夺 式 策略 有 时 用 于 保证 对 高 优先 级 线程 的 响应 ， 或 者 用 于 在 所 有 线程 间 公 平地 共享 CPU。 非 剥夺 的 
SJN 算 法 和 优先 级 调度 前 面 已 经 介绍 过 了 ， 它 们 也 有 相应 的 剥夺 式 版 本 。 和 剥夺 与 非 剥 夺 之 间 的 不 同 就 是 ， 
剥夺 式 版 本 中 总 是 一 直 保 持 最 高 优先 级 的 作业 处 于 运行 状态 。 

ERFA SIN 算法 中 ， 分 配 CPU 给 请 求 服务 时 间 最 短 的 线程 。 如 果 线 程 p; 在 执行 ， 线 程 p 到 达 后 
是 否 被 剥夺 CPU， 在 SN 算法 中 只 需要 比较 t (p) 和 + ( 方 ) 就 可 以 了 ， 这 是 因为 p: 保证 在 p 到 达 时 ， 
在 所 有 的 就 绪 队 列 中 要 具有 最 高 的 优先 级 才能 继续 执行 。 例 如 ， 假 设 处 理 器 采用 剥夺 式 SN 算法， 线程 负 
载 如 表 7-1 所 示 ， 线 程 p 正在 操作 (在 线程 p, 之 后 ) ， 如 果 一 个 新 的 线程 到 达 ， 请 求 的 服务 时 间 为 35 个 
时 间 单位 ， 并 且 线程 p 还 剩 下 多 于 35 个 时 间 单 位 需要 运行 ， 那 么 线程 p 将 会 被 剥夺 CPU， 而 让 新 的 线 
程 运行 。 

类 似 地 ， 假 设 一 个 处 理 器 使 用 剥夺 式 优先 级 调度 在 运行 ， 负 载 如 表 7-2 所 示 。 如 果 当 前 正在 执行 线程 
Pp2， 并 且 来 了 一 个 优先 级 为 2 的 新 线程 ， 那 么 就 会 使 线程 p 回 到 就 绪 队列 中 ， 而 让 新 的 线程 执行 。 

非 测 夺 式 算法 的 讨论 中 忽略 了 进程 间 上 下 文 切换 的 时 间 ， 因 为 假设 了 一 个 进程 在 完成 一 件 工作 期 间 不 
被 中 断 。 而 在 剥夺 式 算法 中 ， 只 要 有 中 断 发 生 ， 当 前 运行 的 进程 就 可 能 被 一 个 新 的 高 优先 级 的 线程 所 蔡 
代 。 这 意味 着 剥夺 式 调度 算法 比 非 剥夺 式 调度 算法 有 更 多 的 上 下 文 切换 开销 。 

下 面 两 节 描 述 了 几 种 专门 为 剥夺 式 环境 所 开发 的 剥夺 式 调 度 算法 。 


7.5.1 轮转 
轮转 (round-robin, RR) 调度 是 所 有 调度 算法 中 最 广 为 使 用 的 一 种 。RR 算法 要 求 在 所 有 请 求 处 理 器 
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的 进香 (线程 这 问 ， 公 于 地 分 本 处理 时 问 。 UMORAAMMA MEAR PAE epi 
实际 处 理 时间 单 位 中 ，” 个 进程 中 的 每 个 都 获得 大 约 1/n 的 时 间 (这 是 一 个 近似 值 ， 因 为 其 间 调 度 开 销 以 
及 上 下 文 切换 花费 的 时 间 也 包含 在 内 )。 更 准确 地 说 ， 假设 CPU 空闲 ， 并 且 有 n MERE», O<i<n) 
已 经 就 绪 ， 且 进程 按 索引 顺序 出 现在 就 绪 队 列 中 〈 按 记 数 的 习惯 )， 如 果 i<j 即 进程 p; THE p 之 前 ， 
那么 处 理 器 就 会 按照 pp，p1，p2，...，p。_ 1 的 次 序 进行 分 配 使 用 ， 然 后 再 返回 到 po 开始 ， 如 此 往复 循 
环 下 去 。 

在 实现 RR 调度 算法 时 有 几 种 选择 。 如 果 处 理 器 在 定时 时 间 之 前 就 完成 了 一 个 进程 的 服务 ， 那 么 立即 
激活 调度 程序 让 另 一 个 进程 开始 使 用 处 理 器 ， 并 启动 一 个 新 的 时 间 定 时 。 当 一 个 新 进程 到 达 时 ， 就 放 人 就 
绪 队 列 ， 然 而 它 在 队列 中 的 位 置 要 取决 于 算法 实现 的 另 一 个 选项 ， 即 如 果 就 绪 队 列 是 一 个 环形 的 队列 ， 那 
么 新 进程 就 位 于 环 中 上 次 刚 被 执行 的 进程 之 后 ， 因 而 其 余 n ~ 1 个 进程 就 会 在 新 进程 之 前 获得 服务 。 还 有 
一 种 像 排 队 一 样 实现 就 绪 队 列 的 ， 其 中 分 派 器 使 进程 有 序 地 排队 ， 新 到 的 进程 排 在 队 尾 ， 而 与 正在 执行 的 
进程 无 关 ， 新 进程 在 分 配 CPU 之 前 大 约 要 平均 等 待 n/2 个 时 间 片 的 时 间 。 

在 RR 调度 算法 中 ， 考 虑 上 下 文 切换 的 影响 。 设 C 为 在 用 户 进 程 间 完成 上 下 文 切 换 的 时 间 (常常 假定 
C 太 小 可 以 被 忽略 )， 那 么 在 每 nx(g + C) 个 实际 处 理 时 间 单 位 中 ，n 个 进程 中 的 每 一 个 将 获得 g 个 使 用 
CPU 的 时 间 单 位 。 

使 用 计时 器 中 断 的 系统 自然 适合 采用 RR 调度 ， 因 而 中 断 间隔 能 够 被 置 为 要 求 的 时 间 定 量 。 只 要 计时 
器 中 断 处 理 程序 被 激活 ， 它 就 调用 调度 程序 。 当 一 个 进程 结束 时 ， 会 从 就 绪 队 列 中 删除 ， 当 一 个 新 的 进程 
出 现时 ， 使 用 前 面 所 描述 的 实现 方法 将 其 插入 到 就 绪 队 列 中 。 

在 另 一 个 执行 的 进程 释放 了 相应 的 资源 时 ， 等 待 资源 的 阻塞 的 进程 就 可 以 变 成 就 绪 进 程 。 当 在 一 个 释 
放 资 源 操作 中 调用 资源 管理 器 程序 时 ， 它 就 重新 分 配 可 用 资源 给 一 个 或 多 个 阻塞 的 进程 ， 并 改变 那些 进程 
的 状态 为 就 绪 ， 然 后 将 那些 进程 加 入 到 就 绪 队 列 中 ， 原 来 的 进程 就 可 以 继续 在 它 的 时 间 片 内 执行 了 。 

当 发 生计 时 器 中 断 时 ， 正 在 执行 的 进程 的 时 间 定 量 就 结束 了 ， 因 而 调度 程序 就 把 运行 的 进程 从 CPU 
移 走 ， 根 据 实现 策略 调整 就 绪 队 列 ， 重 置 计 时 器 ， 并 分 配 CPU 给 位 于 队列 头 的 进程 。 

假设 就 绪 队 列 中 包含 的 进程 如 表 7-1 所 示 ， 并 且 时 间 定 量 为 S9， 忽 略 上 下 文 切 换 的 时 间 。 在 图 7-12 
中 的 Gantt 图 描述 了 调度 的 结果 。 
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图 7-12 AYA 50 的 RR 调度 
Œ: RR 调度 使 用 了 可 编程 的 内 部 计时 器 来 周期 性 地 复 用 CPU。 在 这 个 例子 中 ， 计 时 器 中 断 每 50 个 时 间 单 位 发 
生 一 次 。 进 程 每 次 使 用 50 个 时 间 单 位 (如 果 它 们 不 需要 完全 的 时 间 片 ， 会 更 少 ) 的 CPU。 


根据 Gantt 图 所 示 ， 周 转 时 间 如 下 : 
Tra (Po) = 1100 
Tira (pı) = 550 
Tra (b2) = 1275 
Trea (p3) = 950 
Tren (pa) = 475 

从 而 平均 周转 时 间 为 : 
Trea = (1100 + 550 + 1275 + 950 + 475) /5 = 4350/5=870 
根据 Gantt 图 ， 我 们 可 以 确定 等 待 时 间 为 (到 进程 第 一 次 获得 处 理 器 的 时 间 ): 
W (po) = 0 
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W (pı) = 50 
W (p2) = 100 
W (p3) =150 
W (p4) =200 
所 以 平均 等 待 时 间 为 ; 


w= (0 + 50 +100 + 150 + 200) /5 =500/5= 100 
等 待 时 间 表 明 ， 在 如 何 让 一 个 进程 快速 开始 获得 服务 方面 ，RR 算法 (以 及 其 他 基于 时 间 定 量 的 算法 ) 
有 了 明显 的 优势 。 然 而 ， 在 平均 周转 时 间 方 面 ， 与 非 剥 夺 式 算法 相 比 ， 并 没有 什么 明显 的 差别 。 
下 面 重新 考虑 上 面 的 例子 ， 要求 包括 上 下 文 切 换 时 间 ， 假 设 每 次 上 下 文 切换 时 间 为 10 个 单位 时 间 
(参见 图 7-13) ， 则 周转 时 间 为 〈 源 于 Gantt M): 
Tma (Po) = 1320 
Tren (pı) = 660 
Trea (p2) = 1535 
Tīra (p3) = 1140 
Tīra (p4) = 565 
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图 7-13 考虑 调度 开销 的 RR 调度 
注 : 当 要 考虑 调度 开销 的 时 间 时 ， 就 每 个 调度 操作 开销 为 10 个 时 间 单 位 这 种 情况 ， 需 要 在 相 邻 的 时 间 量 之 间 播 
和 人 一 个 增加 的 调度 开销 时 间 。 开 销 是 一 个 严重 的 性 能 障碍 ， 这 取决 于 开销 的 大 小 。 


从 而 平均 周转 时 间 为 : . 
Trew = (1320 + 660 + 1535 + 1140 + 565) /5 = 5220/5 = 1044 
根据 Gantt 图 ， 我 们 可 以 确定 等 待 时 间 为 : 
W (po) = 0 
W (pi) = 60 
W (p2) = 120 
W (p3) =180 
W (p4) =240 
所 以 平均 等 待 时 间 为 : 
W= (0 + 60 +120 + 180 + 240) /5 =600/5= 120 


7.5.2 多 级 队列 


多 级 队列 (multiple-level queues) 调度 是 优先 级 调度 的 扩展 ， 它 把 所 有 进程 中 优先 级 相同 的 进程 都 放 
在 一 个 单独 的 队列 中 。 调 度 程序 在 进程 间 分 配 CPU 时 ， 首 先 根据 它们 所 在 队列 的 优先 级 选择 ， 然 后 在 优 
先 级 相同 的 队列 中 再 采用 第 二 种 策略 进行 选择 。 在 最 简单 的 情形 中 ， 假 设 就 绪 队 列 被 分 成 J 个 更 小 的 子 就 
绪 队 列 ， 每 个 子 就 绪 队 列 中 的 所 有 进程 都 有 相同 的 优先 级 ， 如 果 进 程 p; 的 优先 级 为 &， 那 么 它 就 位 于 就 绪 
TAJ 中。 如 果 我 们 假设 队列 间 采 用 剥夺 式 优先 级 调度 ， 那 么 子 队列 1 中 的 所 有 进程 就 可 以 在 子 队列 
2 一 J 中 的 进程 之 前 竞争 CPU 运行 ， 以 此 类 推 。 在 子 队列 中， 可 能 采用 任 一 策略 选取 进程 分 配 CPU。 

在 队列 间 分 配 CPU 策略 的 变种 有 很 多 ， 其 中 之 一 是 使 高 优先 级 子 队列 能 获得 更 多 的 CPU 时 间 。 例 
如 ， 在 这 个 策略 中 ， 可 能 将 2 /的 时 间 分 配给 子 队 列 ; 中 的 线程 。 在 这 种 情形 下 ， 若 实际 处 理 时 间 为 100 
秒 (忽略 开销 )，50 秒 分 配给 子 队 列 1 中 的 进程 使 用 ，25 秒 给 子 队列 2 中 的 进程 使 用 ，12.5 秒 给 子 进程 3 
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中 的 进程 使 用 ， 以 此 类 推 。 

每 种 复杂 的 调度 算法 都 会 增长 上 下 文 切换 的 时 间 ， 因 此 ， 分 时 系统 中 最 常用 的 调度 算法 是 简单 形式 的 
多 级 队列 调度 ， 常 常 在 一 个 优先 级 队列 中 结合 使 用 RR 调度 。 

台 和 后 台 进 程 

在 分 时 系统 中 ， 常 常会 用 到 前 台 (foreground) 和 后 台 (background) 进程 的 思想 。 前 台 进 程 服务 交互 
用 户 ， 而 后 台 进 程 在 前 台 进 程 不 请 求 CPU 时 试图 运行 。 其 中 有 一 个 高 优先 级 的 前 台 就 绪 子 队列 ， 以 及 一 
个 低 优 先 级 的 后 台 就 绪 子 队列 ， 任 一 个 前 台 作 业 都 优先 于 所 有 的 后 台 作 业 。 | 

基于 前 台 / 后 台 基 本 原理 的 策略 也 有 很 多 种 。 例 如 ， 中 断 处 理 程序 线程 可 能 在 优先 级 1 下 运行 ， 设 备 
驱动 程序 在 优先 级 2 下 运行 ， 交 互 处 理 作业 在 优先 级 3 下 运行 ， 交 互 编辑 作业 在 优先 级 4 下 运行 ， 一 般 批 
处 理 作业 在 优先 级 5 下 运行 ,“ 长 ” 批 处 理 作 业 在 优先 级 6 下 运行 。 当 然 ， 这 种 选择 建议 进程 可 以 在 运行 
期 间 改 变 它 的 优先 级 ， 这 取决 于 它们 当前 执行 的 计算 阶段 。 例 如 ， 如 果 一 个 交互 编辑 的 进程 变 成 了 计算 窗 
集 的 进程 ， 它 的 优先 级 就 可 能 下 降 到 更 低 的 级 别 中 ， 因 为 它 试图 更 多 地 使 用 CPU。 而 与 此 相对 的 策略 ， 是 
在 密集 计算 阶段 增长 它 的 优先 级 到 一 个 更 高 的 级 别 中 ， 理 由 是 用 户 需 要 享用 更 多 的 CPU 时 间 来 维持 服务 。 
允许 进程 改变 到 不 同 就 绪 子 队列 的 系统 ， 称 为 多 级 反馈 队列 (multiple-level feedback queue) 。 
7.6 调度 程序 的 实现 

进程 管理 器 的 调度 部 分 采用 了 图 7-2 所 示 的 逻辑 机 制 。 然 而 ， 调 度 程序 的 实现 可 能 并 没有 反映 图 中 所 
示 的 这 种 结构 ， 这 是 因为 需要 让 调度 程序 执行 的 环境 和 调度 程序 软件 尽 可 能 有 效 。 如 果 你 浏览 操作 系统 的 
源 代码 ， 你 可 能 会 识别 出 分 派 器 ， 但 是 很 难 发 现实 现 排队 器 、 上 下 文 切换 及 整个 机 制 的 更 多 细节 组 件 的 代 
码 。 为 了 得 到 一 个 更 清楚 的 结果 ， 你 需要 浏览 一 个 特定 操作 系统 的 源 代码 。 

逻辑 上 说 ， 操 作 系 统 采 用 了 三 个 函数 来 执行 图 7-2 表示 的 任务 。 当 
者 由 于 IO 操作 的 完成 ， 或 者 由 于 运行 线程 的 显 式 活动 (或 者 在 多 处 理 器 系统 中 的 其 中 一 个 运行 线程 )， 
调度 程序 的 排队 器 部 分 都 会 被 调用 。 在 一 个 中 断 驱动 的 系统 中 ，LO 完成 引发 一 个 中 断 ， 因 此 ， 由 于 IO 
操作 的 完成 ，LMO 设备 的 中 断 处 理 程序 应 该 确定 哪个 线程 变 为 就 绪 状 态 。L/O 处 理 程序 然后 将 相应 线程 的 
状态 从 阻塞 变 为 就 绪 (将 线程 置 人 就 绪 队 列 ) 。 使 线程 变 为 就 绪 的 另 一 种 情况 是 : 它 由 于 等 候 一 个 事件 而 
阻塞 〈 如 等 候 资 源 变 得 可 分 配 )。 当 事件 发 生 时 ， 操 作 系统 可 以 将 阻塞 线程 变 为 就 绪 状 态 。 在 线程 加 入 到 
就 绪 队 列 后 ， 应 该 调用 分 派 器 来 确保 高 优先 级 的 就 绪 任 务 会 被 分 配 CPU。 

通常 ， 操 作 系 统 包含 了 一 个 保存 内 部 CPU 状态 的 函数 ( 见 图 6-7)。 这 是 上 下 文 切换 代码 的 关键 部 分 ， 
也 是 系统 调用 和 中 断 处 理 代码 的 一 个 重要 部 分 。 也 就 是 说 ， 当 操作 系统 需要 运行 时 ， 调 用 CPU 状态 保存 
函数 ， 因 为 需要 保存 正在 运行 的 进程 的 状态 。 在 大 多 数 的 操作 系统 中 ， 这 仅 发 生 在 一 个 系统 调用 或 中 断 处 ， 
理 中 。 

操作 系统 分 派 器 函数 是 调度 程序 的 主要 部 分 ， 当 为 一 个 新 进程 分 配 CPU 时 ， 它 就 会 被 调用 。 在 自愿 
调度 机 制 中 ， 这 个 分 派 器 由 yield O 系统 调用 来 调用 。 在 非 自愿 调度 机 制 的 系统 中 ， 分 派 器 由 间隔 计时 
器 驱动 程序 来 调用 。 使 用 自愿 调度 机 制 的 系统 通常 并 不 支持 中 断 ; 如 果 它 们 支持 中 断 ， 通 常 有 一 个 间隔 计 
时 器 来 支持 非 自 愿 调 度 机 制 。 

分 派 器 也 会 由 于 系统 调用 的 副作用 而 被 调用 。 例 如 ， 操 作 系 统 决 定 在 进程 进行 了 系统 调用 之 后 (如 不 
能 满足 资源 请 求 ) 要 阻塞 进程 ， 那 么 操作 系统 代码 会 调用 分 派 器 来 运行 不 同 的 进程 。 在 中 断 驱 动 的 调度 程 
序 中 ， 分 派 器 可 以 在 中 断 / 设 备 驱动 程序 处 理 完 中 断 之 后 被 调用 。 在 调度 实现 的 如 下 讨论 中 ， 我 们 假定 是 
中 断 驱 动 的 调度 程序 ， 因 为 它们 采用 了 自愿 机 制 的 所 有 功能 。 

当 分 派 器 运行 时 ，CPU 切换 到 核心 模式 ， 运 行进 程 的 CPU 状态 (上 下 文 ) 被 保存 ， 操 作 系 统 代码 开 
始 执行 。CPU 开始 执行 与 系统 调用 或 中 断 相关 的 特定 的 操作 系统 代码 。 当 操作 系统 代码 (或 系统 调用 或 设 
备 中 断 处 理 程序 ) 完成 时 ， 分 派 器 被 调用 。 分 派 器 代码 实现 了 系统 选择 的 调度 策略 ， 它 可 以 从 就 绪 队 列 中 
选择 一 个 线程 来 执行 。 如 果 没 有 就 绪 线 程 ， 分 派 器 会 运行 一 个 空闲 线程 直到 中 断 发 生 。 一 旦 用 户 线程 被 选 
择 ， 它 的 状态 变 为 运行 状态 ， 并 且 从 线程 描述 表 中 恢复 CPU 的 上 下 文 ， 然 后 重新 开始 执行 线程 。 
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示例 : Linux 调度 机 制 

在 Linux 1.0.9 版 本 (Linux 的 一 个 早期 版 本 ) 调度 程序 中 ， 分 派 器 是 一 个 内 核 函 数 schedule ()。 这 
个 函数 会 被 其 他 的 系统 函数 所 调用 ， 也 会 在 每 个 系统 调用 和 中 断 处 理 后 被 调用 。 每 次 分 派 器 被 调用 后 ， 它 
执行 周期 性 的 工作 (如 处 理 挂 起 的 信号 )， 观 察 TASK _ RUNNING 状态 (就绪 队列 ) 的 任务 ， 根 据 调度 策略 选 
择 一 个 任务 来 执行 ， 并 将 任务 分 派 到 CPU 上 运行 直到 中 断 发 生 。 

这 种 策略 是 RR 调度 的 一 个 变种 ， 它 使 用 了 传统 的 时 间 片 机 制 ， 如 果 其 他 的 任务 在 等 候 使 用 CPU， 则 
它 对 任务 能 持续 使 用 CPU 的 时 间 做 了 一 个 上 界 约束 。 基 于 nice () 或 setpriority () 系统 调用 赋 给 任务 
的 值 ， 及 进程 等 候 CPU 变 得 可 用 的 时 间 开 销 值 来 计算 动态 优先 级 。 任 务 描述 表 中 的 counter 域 是 确定 任务 
动态 优先 级 的 一 个 关键 部 分 一 一 它 会 在 每 次 计时 器 中 断 时 调整 (中断 处 理 程序 为 任务 调整 计时 器 域 )。 分 
派 器 选择 具有 最 大 的 counter 值 的 就 绪 任 务 。 

下 列 的 有 注释 的 代码 段 取 自 Linux 版 本 1.0.9 源 代码 。 它 表示 了 调度 程序 的 主流 程 ， 警 告 处 理 代码 和 
调试 代码 已 经 被 移 走 了 。 程 序 中 增加 了 C++ 风格 的 注释 ， 但 是 它 并 不 在 Linux 源 代码 中 出 现 。 


/* 
* eae 
* NOTE!! Task 0 is the ‘idle’ task, which gets called when no 
* other tasks can run. It cannot be killed and it cannot 
* sleep. The ‘state’ information in task(0] is never used. 


* 
* 


*/ 
asmlinkage void schedule(void) 
{ 
int c; . 
struct task struct * p; // Pointer to the Process descriptor 
// currently being inspected ' 
struct task struct * next; 
unsigned long ticks; 
/* check alarm, wake up any interruptible tasks that have got a 
* signal 
*/ 
// This code is elided from the description 
/* this is the scheduler proper: */ 
#if 0 
/* give processes that go to sleep a bit higher priority.. */ 
/* This depends on the values for TASK_XXX */ 
/* This gives smoother scheduling for some things, but */ 
/* can be very unfair under some circumstances, so.. */ 
if (TASK_UNINTERRUPTIBLE >= (unsigned) current->state && 
current->counter < current->priority*2) { 
++current->counter; 


} 
#endif 
c= -1; // Choose the task with the highest 
// c == p->counter value 
next = p = &init_task; 
for (77) { 
if ((p = P->next_task) == &init task) 
goto confuse gcc; // This is the loop exit 
if (p->state == TASK_RUNNING && p->counter > c) 
c = p->counter, next = p; // This task has the highest 
// p->count so far, but keep 
// looking 
} 
confuse_gcec: 
if (!c) { 
for_each_task(p) 
p->counter = (p->counter >> 1) + p->priority; 
} 
if(current != next) 


kstat.context_swtch++; 
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switch to(next); // This is the context switch 
. // This code is elided from the description 
hi 
} 








示例 : BSD UNIX 中 的 调度 策略 

在 BSD UNIX 中 ,使 用 了 多 级 反馈 队列 方法 ， 其 中 带 有 32 个 运行 队列 [McKusick，et al. ，1996]。 系 统 
进程 使 用 0 一 7 号 运行 队列 ， 在 用 户 空间 执行 的 进程 放 在 8 一 31 号 运行 队列 中 。 在 分 派 器 分 配 CPU 时 ， 从 高 
优先 级 运行 队列 中 选择 一 个 进程 。 在 队列 内 部 ，BSD UNIX 使 用 RR 调度 算法 ， 因 而 只 有 在 高 优先 级 、 非 空 
的 运行 队列 中 的 进程 才能 够 执行 。 在 实现 中 ， 时 间 定量 是 变化 的 ,但 所 有 的 时 间 定 量 都 少 于 100 微 秒 。 

每 个 进程 都 有 一 个 外 部 的 nice () 优先 级 ， 当 进程 就 绪 时 ， 它 可 以 影响 到 进程 放 入 哪 一 个 运行 队列 
中 ,但 不 能 由 nice () 值 单独 确定 。nice () 优先 级 的 默认 值 为 0， 但 它 可 以 通过 nice () 系统 调用 改变 ， 
值 的 变化 范围 在 - 20 一 20 之 间 ， 其 中 - 20 是 最 高 的 用 户 优先 级 ， 而 20 是 最 低 的 。 大 约 每 个 时 间 定 量 后 ， 
调度 程序 就 重新 计算 一 次 每 个 进程 的 当前 优先 级 ， 当 前 优先 级 取决 于 nice () 优先 级 以 及 进程 最 近 使 用 
CPU 的 多 少 (使 用 CPU 越 多 ， 意 味 着 更 低 的 优先 级 ) 。 

BSD 内 核 中 引起 分 派 器 被 调用 的 事件 与 Linux 相同 。sleep () 例 程 的 效果 与 执行 yield () 指令 是 一 
样 的。 当 一 个 进程 调用 sleep O 时 ， 调 度 程序 被 调用 ， 分 配 CPU 给 一 个 新 进程 。 另 外 ， 调 度 程序 也 在 自 
陷 指 令 执行 完成 后 被 调用 ， 或 者 在 中 断 处 理 完 后 被 调用 。 

E 








E 
示例 : Windows NT/2000/XP 中 的 线程 调度 

Windows NT/2000/XP 中 的 线程 调度 程序 也 采用 多 级 反馈 调度 技术 ， 其 中 试图 给 那些 需要 很 快 响应 的 
线程 以 很 高 的 优先 级 ， 时 间 定 量 为 时 钟 中 断 间隔 的 倍数 (例如 ， 一 个 时 间 定 量 可 能 是 主机 系统 时 钟 的 三 个 
单位 时 间 数 )。 在 大 多 数 的 Windows NT/2000/XP 机 器 中 ， 时 间 定 重大 约 在 20~200 毫秒 (ms) 之 间 。 服 
务 器 中 配置 的 时 间 定 量 是 使 用 相同 类 型 处 理 器 的 工作 站 中 的 6 倍 ， 这 是 因为 由 于 客户 请 求 ， 服 务 器 有 极 大 
的 计算 密集 型 工作 需要 处 理 。 

调度 程序 支持 32 个 不 同 的 调度 级 别 ， 前 16 个 高 优先 级 队列 称 为 实时 级 队列 (real-time level queues), 
后 面 15 个 较 高 优先 级 队列 称 为 可 变 级 别 队列 (variable level queues)， 最 低 优先 级 队列 称 为 系统 级 队列 
(system level queue) 。 调度 程序 试图 限制 进入 实时 队列 的 进程 数 ， 增加 相互 间 没 有 竞争 的 进程 在 高 优先 级 
别 下 执行 的 可 能 性 。 然 而 ，Win NT/2000/XP 并 不 是 一 个 实时 系统 ， 并 不 能 保证 那些 在 高 优先 级 别 下 运行 
的 进程 ， 在 某 个 固定 的 期 限 之 前 获得 处 理 器 。 高 优先 级 队列 中 的 进程 在 处 理 中 同样 会 经 过 可 变 级 别 队 列 ， 
最 后 落 到 系统 级 队列 中 。 系 统 级 队列 中 包含 有 一 个 “ 零 页 线程 ”来 表示 空闲 线程 ， 即 当 整个 系统 中 没有 运 
行 的 线程 时 ， 它 就 运行 零 页 线程 ， 直 到 有 中 断 发 生 并 且 另 一 个 线程 变 成 可 运行 。 零 页 线程 是 系统 中 优先 级 
最 低 的 线程 ， 因 而 它 只 在 没有 其 他 线程 运行 时 才 可 以 运行 。 

调度 程序 是 完全 剥夺 方式 的 ， 意 味 着 只 要 一 个 线程 就 绪 ， 它 就 会 根据 优先 级 被 放 和 相应 的 运行 队列 
中 。 如 果 当 时 正在 运行 的 进程 具有 比 它 低 的 优先 级 ， 那 么 较 低 优先 级 的 进程 便 会 被 中 断 (不 允许 等 到 时 间 
定量 结束 )， 然 后 分 配 处 理 器 给 新 的 具有 较 高 优先 级 的 进程 。 在 单 处 理 器 系统 中 ， 这 就 意味 着 一 个 线程 能 
够 引起 自己 从 处 理 器 中 移 走 ， 而 使 一 个 较 高 优先 级 的 进程 运行 。 多 处 理 器 系统 中 的 情形 会 更 微妙 : 假设 在 
一 个 两 个 处 理 器 的 系统 中 ， 一 个 处 理 器 在 运行 一 个 4 级 (在 32-4=28 号 队列 ) 的 线程 ， 而 另 一 个 在 运行 
一 个 10 级 的 线程 ， 如 果 4 级 的 线程 完成 某 个 活动 后 ， 突 然 引 起 以 前 被 阻塞 的 一 个 6 级 线程 运行 ， 那么 10 
级 的 线程 将 会 被 停止 ， 并 且 新 的 6 级 的 线程 将 开始 使 用 10 级 线程 用 过 的 处 理 器 。 
E 





7.7 小 结 
调度 程序 负责 在 一 组 就 绪 进程 间 复 用 CPU， 可 以 通过 计时 器 中 断定 期 调用 调度 程序 ， 或 者 通过 系统 调 
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用 、 其 他 的 设备 中 断 激活 运行 调度 程序 ， 或 者 当 运 行进 程 通过 执行 yield 指令 或 请 求 资源 自愿 释放 CPU 
时 调用 调度 程序 。 调 度 程序 从 就 绪 队 列 中 选择 一 个 进程 ， 然 后 分 配 处 理 器 给 它 使 用 。 
调度 策略 可 以 分 成 非 剥 夺 式 和 剥夺 式 两 种 ， 在 非 剥 夺 式 策略 中 ， 一 旦 一 个 进程 获得 处 理 器 ， 就 允许 它 
运行 结束 ;而 在 剥夺 式 策略 中 ， 使 用 时 间 间 隔 计时 器 和 调度 程序 定期 地 重新 分 配 CPU。FCFS、SJN、 优 先 
级 以 及 期 限 算法 都 是 众所周知 的 非 剥 夺 式 算法 ， 而 RR 和 多 级 队列 (还 有 优先 级 和 SJN 的 剥夺 式 版 本 ) 常 
常用 于 剥夺 式 算 法 的 实现 中 。 
调度 算法 已 采用 很 多 不 同 的 方法 实现 ， 更 复杂 的 算法 是 不 同形 式 的 多 级 反馈 队列 。 
调度 是 CPU 资源 管理 器 的 核心 ， 它 实现 了 在 一 组 进程 间 共享 CPU。 一 旦 在 计算 环境 中 通过 调度 支持 
并 发 线程 的 执行 ， 那 么 进程 管理 器 必须 增加 另外 的 机 制 ， 来 允许 这 些 并 发 线程 协调 它们 的 操作 。 进 程 和 线 
程 的 协调 合作 将 在 下 面 两 章 中 讨论 。 
7.8 习题 
1. 在 处 理 器 的 复 用 中 采用 中 断 和 间隔 计时 器 ， 当 中 断 请 求 标 志 位 (InterruptRequest) 由 时 钟 设备 设 
置 为 TRUE 时 ， 处 理 器 就 会 收 到 一 个 计时 中 断 。 在 讨论 中 ， 假 设 当中 断 软 件 处 理 中 断 时 ， 会 将 In- 
terruptRequest 位 重 置 为 FRLSE。 如 果 中 断 软 件 重 置 了 标志 位 ， 但 在 时 钟 中 断 例 程 和 调度 程序 结束 
工作 之 前 ， 又 发 生 了 另 一 个 中 断 ， 那 么 会 发 生 什么 情况 ? 
2. 假设 在 一 个 系统 中 ， 新 进程 以 每 分 钟 6 个 进程 的 速率 到 达 ， 并 且 每 个 请 求 的 服务 时 间 平 均 为 8 秒 。 
估计 在 一 个 单 处 理 器 的 系统 中 CPU 忙 的 时 间 比 率 。 
3. 假设 在 一 个 处 邵 器 上 执行 下 面 的 作业 ， 作 业 到 达 的 次 序 如 下 ; 


i t (pi) 
0 80 
20 
10 
20 
50 
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a. 假定 系统 中 使 用 FCFS 调度 算法 ， 建 立 说 明 这 些 进程 执行 的 Gantt 图 。 
b. 进程 ps 的 周转 时 间 是 多 少 ? 
c 进程 的 平均 等 待 时 间 是 多 少 ? 
4. 使 用 上 一 题 中 的 进程 负载 ， 假 设 系统 采用 SIN 调度 算法 。 
a. 建立 说 明 这 些 进程 执行 的 Gantt 图 。 
b. 进程 py 的 周转 时 间 是 多 少 ? 
c. 进程 的 平均 等 待 时 间 是 多 少 ? 
5. 假设 系统 中 采用 优先 级 调度 (进程 负载 如 下 )， 其 中 小 整数 表示 高 优先 级 。 


t (pi) 优先 级 
80 3 
20 1 
10 4 
5 
2 








20 
50 
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a. 建立 说 明 这 些 进程 执行 的 Gantt 图 。 
b. 进程 p 的 周转 时 间 是 多 少 ? 
c. 进程 的 平均 等 待 时 间 是 多 少 ? 





再 ORR 173 


6. 假设 在 一 个 处 理 器 上 执行 下 面 的 作业 : 








i T (pi) 到 达 时 间 
0 75 0 
1 40 10 
2 25 10 
3 20 80 
4 45 85 


假定 系统 采用 RR 调度 ， 其 中 时 间 定 量 为 15， 那 么 : 
a. 建立 说 明 这 些 进程 执行 的 Gantt 图 。 
b. 进程 ps 的 周转 时 间 是 多 少 ? 
c. 进程 的 平均 等 待 时 间 是 多 少 ? 
7. 假设 在 一 个 处 理 器 上 执行 下 面 的 作业 : 








i T (pi) 到 达 时 间 
0 75 0 
1 40 10 
2 25 10 
3 30 55 
4 45 95 





假定 系统 采用 剥夺 式 SIN 调度 ， 建 立 Gantt 图 来 解释 进程 的 执行 。 
8. 采用 RR 调度 ， 假 定 上 下 文 切换 时 间 是 5 个 时 间 单 位 。 

a. 建立 说 明 这 些 进 程 执行 的 Gantt 图 。 

b. 进程 ps 的 周转 时 间 是 多 少 ? 

c. 进程 的 平均 等 待 时 间 是 多 少 ? 
9. 假设 在 一 个 处 理 器 上 执行 下 面 的 作业 : 


i T (pi) 优先 级 
80 
25 
15 
20 
45 
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假定 作业 是 在 同一 时 间 到 达 的 ， 采用 优先 级 调度 算法 ， 那 么 : 
a. 建立 说 明 这 些 进程 执行 的 Gantt 图 。 
b. 进程 p 的 周转 时 间 是 多 少 ? © 
c. 进程 的 平均 等 待 时 间 是 多 少 ? 

10. 如 果 在 RR 调度 算法 中 ， 将 时 间 定 量 增 长 为 一 个 任意 大 的 数目 ， 那 么 会 产生 什么 影响 ? 

11. Linux 2.2 版 本 支持 了 内 核 线程 ， 所 以 ， 它 的 调度 程序 是 对 线程 操作 ， 而 不 是 进程 。 你 认为 为 了 
2.2 版 本 的 功能 需要 完全 重新 设计 2.0 版 本 吗 (或 7.5 节 描述 的 1.0 版 本 的 调度 程序 )? 或 进程 调 
度 算 法 很 容易 适合 线程 调度 吗 ? 

12. BSD UNIX 中 的 优先 级 实际 上 是 在 0 一 127 之 闻 ， 而 不 是 0 一 31 (相应 的 运行 队列 导 )。 思 考 一 下 ， 
设计 者 为 什么 不 在 调度 程序 中 使 用 128 个 运行 队列 ? 
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实验 7.1: 分 析 RR 调度 


这 个 练习 可 以 在 任何 UNIX 和 Windows 系统 中 解决 。 你 的 老师 将 告诉 你 可 以 使 用 哪 种 程序 
设计 语言 来 解决 这 个 问题 。 


在 这 个 练习 中 ， 你 将 研究 RR 调度 中 使 用 的 几 个 参数 的 效果 ( 见 7.5 节 )。 为 了 做 好 这 个 练习 ， 你 需 
要 在 不 同 的 时 间 片 长 度 和 不 同 的 分 派 器 开销 时 间 下 ， 编 写 一 个 测试 策略 性 能 的 离散 仿真 程序 。 用 仿真 程序 
来 模拟 具有 剥夺 式 RR 调度 程序 的 单 CPU 系统 的 行为 ， 然 后 对 有 关 的 仿真 操作 收集 性 能 数据 。 

创建 一 个 输入 文件 来 表示 进程 到 达 和 服务 时 间 ， 每 一 行 表 示 有 一 个 进程 进入 了 仿真 系统 。 第 一 个 数 是 到 
达 时 间 〈 一 个 整数 秒 ) ， 第 二 个 数 是 进程 完成 需要 的 时 间 数 〈 浮 点 秒 )。 例 如 ， 文 件 的 开始 几 行 可 能 如 下 : 


30 0.783560 

54 17.282004 

97 32.814522 

133 39.986730 
163 42.805902 
181 28.249353 
204 45.561030 
249 26.369485 
287 48.582049 
325 37.274777 
365 37.144992 
399 22.059136 
424 47.168534 
455 20.090157 
488 56.053016 
531 39.640908 
572 0.717403 
610 34.732701 
637 21.593761 
658 48.477451 
685 21.472914 
729 44.603773 


这 个 文件 段 示 例 意味 着 第 一 个 进程 在 时 间 30 到 达 ， 然 后 请 求 0.783560 秒 的 CPU 服务 时 间 。 第 二 个 
进程 在 时 间 54 到 达 ， 请 求 17.282004 秒 的 服务 ， 等 等 。 

在 完成 了 你 的 仿真 程序 后 ， 使 用 固定 的 输入 负载 来 进行 仿真 实验 ， 但 是 将 分 派 器 的 开销 时 间 变 为 0、 
5, 10. 15, 20 和 25 Se, NIB) A 50, 100, 250 和 500 毫秒 。 

在 你 的 仿真 中 ， 假 定 是 图 7-7 所 示 的 模型 ，RR 调度 细节 如 7.5 节 所 建议 的 ， 特 别 见 图 7-13。 至 少 要 
使 用 以 前 给 定 的 数据 〈 或 你 的 老师 指定 的 数据 ) ， 确 定 所 有 进程 的 等 候 时 间 和 平均 周转 时 间 。 并 用 两 幅 图 
来 表示 你 的 发 现 。 在 第 一 幅 图 中 ，Y 轴 应 该 是 平均 等 候 时 间 ，X 轴 应 该 是 上 下 文 切换 时 间 。 对 你 测试 的 每 
个 时 间 片 值 在 图 中 都 有 一 条 曲线 。 第 二 幅 图 和 第 一 幅 图 基本 一 样 ， 除 了 它 要 画 出 进程 的 平均 周转 时 间 外 。 
对 每 次 仿真 运行 ， 都 要 记录 处 理 器 繁忙 的 程度 (只 是 一 个 数字 )。 


背景 


性 能 评估 在 计算 机 科学 中 是 一 个 大 的 分 支 ， 这 个 领域 有 大 量 的 书 对 性 能 评估 进行 介绍 : 性 能 测量 、 分 
析 建 模 和 仿真 建 模 。 为 了 帮助 你 做 好 这 个 练习 ， 下 面 是 仿真 建 模 的 一 个 简要 的 介绍 。 

离散 事件 仿真 

计算 机 仿真 常用 来 建立 调度 系统 或 其 他 复杂 系统 的 行为 模型 ， 通 过 测量 建 模 系统 的 行为 而 不 是 实际 系 
统 来 预测 系统 的 性 能 。 这 和 汽车 设计 师 使 用 的 方法 相同 ， 他 们 构建 一 个 汽车 的 粘土 模型 ， 然 后 将 汽车 放 在 
风 洞 里 来 观察 汽车 的 空气 动力 学 行为 。 复 杂 系 统 的 模型 可 能 是 简单 的 ， 也 可 能 是 复杂 的 ， 这 取决 于 在 模型 
中 投入 的 实际 努力 和 模型 的 使 用 意图 。 一 个 简单 的 模型 对 外 部 的 激励 、 内 部 状态 、 内 部 组 织 和 被 建 模 系统 
的 内 部 操作 做 了 很 多 假设 。 一 个 简单 模型 也 仅 产 生 系统 行为 的 粗略 估计 。 如 果 模 型 解决 了 目标 系统 的 许多 
操作 细节 〈 即 只 有 比较 少 的 假设 ) ， 那 这 个 模型 会 变 得 很 复杂 ， 但 是 它 对 目标 系统 的 行为 会 预测 的 更 详细 











wR 、 175 








和 准确 。 这 意味 着 复杂 模型 会 比 简单 模型 更 准确 地 反映 实际 系统 的 特性 。 例 如 ， 一 个 虚拟 现实 游戏 和 一 个 
飞机 战场 模拟 器 试图 让 模型 看 起 来 和 目标 系统 尽 可 能 地 相似 。 

离散 事件 仿真 程序 由 一 组 软件 模块 和 它们 之 间 的 相互 关系 组 成 。 在 仿真 系统 中 ， 一 个 模块 通常 表示 了 
目标 系统 中 的 一 个 相应 模块 ， 并 且 仿 真 模块 间 的 相互 关系 对 应 于 目标 系统 中 模块 间 存在 的 相应 关系 。 例 
如 ， 一 个 仿真 模块 可 以 表示 调度 程序 的 排队 器 ， 另 一 个 可 以 表示 就 绪 队列 ， 另 一 个 表示 分 派 器 等 。 排 队 器 
仿真 模块 将 作业 置 人 就 绪 队列 模块 中 等 。 目 标 系统 中 的 活动 由 仿真 程序 中 的 相应 仿真 组 件 的 活动 来 表示 。 
因此 ， 模 型 的 细节 级 别 由 组 织 映射 和 每 个 仿真 模块 中 具体 表现 的 细节 量 所 反映 。 

每 个 仿真 模型 是 作为 一 个 仿真 过 程 来 构建 的 ， 包 含 一 个 或 多 个 程序 设计 语言 函数 。 执 行 仿真 过 程 表 示 
着 目标 系统 中 相应 模块 的 激活 和 执行 。 任 何 给 定 的 仿真 模块 根据 目标 系统 中 模块 间 存 在 的 相互 关系 来 激 
活 。 例 如 ， 在 仿真 运行 中 ， 当 排队 器 将 一 个 作业 置 人 目标 系统 的 就 绪 队 列 时 ， 则 仿真 程序 将 调用 排队 器 的 
仿真 过 程 ， 它 会 模拟 将 一 个 作业 置 人 就 绪 队 列 中 。 从 某 种 意义 上 说 ,仿真 过 程 是 一 个 模型 ， 它 事实 上 并 不 
管理 进程 描述 表 ， 尽 管 它 实现 了 就 绪 队 列 数据 结构 ， 这 个 就 绪 队 列 数据 结构 和 目标 系统 的 就 绪 队 列 复杂 性 
差不多 。 

构建 一 个 仿真 程序 来 表示 任何 目标 系统 的 行为 首先 需要 你 理解 目标 系统 的 行为 。 对 系统 的 了 解 将 使 你 
能 标识 出 目标 系统 中 的 关键 模块 一 一 受 环境 的 激励 并 作出 反应 的 目标 系统 的 组 件 。 在 标识 出 目标 系统 模块 
后 ， 你 就 会 确定 有 的 系统 模块 对 系统 的 性 能 分 析 并 不 重要 。( 例 如， 空气 动力 学 系统 模型 并 没有 引擎 的 表 
Wo) 这 使 得 你 可 以 将 目标 系统 中 的 一 组 模块 组 合成 一 个 单个 的 逻辑 模块 ， 它 足以 表示 这 组 模块 的 行为 。 
例如 ， 调 度 程序 的 有 些 模块 用 来 更 新 不 同 的 计时 器 数 、 处 理 信 号 等 。 逻 辑 模 块 可 能 简单 地 忽略 了 有 关 计 时 
器 维护 和 信和 号 处 理 的 细节 。 这 是 构建 模型 的 第 一 步 。 

在 标识 出 逻辑 模块 后 ， 确 定 促使 模块 间 相互 作用 的 条 件 。 例 如 ， 在 一 个 调度 程序 仿真 中 ， 可 能 有 一 个 
模块 来 表示 计时 器 中 断 的 发 生 ， 使 得 分 派 器 模块 被 调用 ( 复 用 CPU)。 仿 真 分 析 人 员 通 常 定义 了 一 组 发 生 
在 系统 中 的 事件 ， 每 个 事件 发 生 都 会 表示 一 个 仿真 过 程 被 调用 。“ 发 生 了 一 个 中 断 ” 是 一 个 事件 ， 资 源 分 
配 操作 触发 了 启动 排队 器 的 事件 等 。 确 定 事件 集合 与 你 使 用 的 仿真 模块 /过 程 的 定义 紧密 相关 。 

例如 ， 假 定 你 将 对 一 组 银行 出 纳 员 服务 顾客 请 求 的 行为 进行 建 模 ， 如 存款 、 取 款 、 贷 款 等 。 在 图 7-14 
的 左边 是 一 幅 银 行 的 图 ， 当 一 个 顾客 走 进 银行 来 办 理 正常 的 交易 ， 他 们 需要 排队 来 等 候 出 纳 员 。 如 果 还 有 
人 在 排队 ， 则 所 有 的 出 纳 员 都 是 忙 的 。 当 一 个 出 纳 员 与 一 人 顾客 离开 银行 ， 队 列 中 的 第 

一 个 顾客 来 到 出 纳 员 面前 办 理 业 务 。 

对 于 给 定 的 顾客 到 达 模 式 ， 银 行 可 能 更 加 关心 等 候 顾客 队列 的 平均 长 度 和 最 大 长 度 。 管 理 层 可 能 更 加 关 
心 出 纳 员 的 繁忙 程度 (平均 而 言 ),， 或 者 是 当 出 纳 员 增 加 或 减少 时 会 发 生 什么 。 这 些 及 其 他 类 似 的 问题 都 可 
以 通过 构建 一 个 出 纳 员 操作 模型 来 解决 〈 见 图 7-14 的 右 图 ) ， 并 用 该 模型 模拟 出 纳 员 和 顾客 的 活动 。 





银行 中 的 出 纳 员 银行 中 出 纳 员 的 模型 


图 7-14 银行 出 纳 员 仿真 
TE: 左边 的 这 幅 图 表示 了 银行 的 大 厅 ， 有 顾客 和 出 纳 员 。 右 图 是 表示 银行 行为 的 模型 。 顾 客队 列 用 一 个 队列 数 
据 结构 来 表示 ， 每 一 个 出 纳 员 用 一 个 仿真 函数 表示 。 
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通过 将 所 关心 的 实体 作为 数据 结构 的 方式 来 进行 建 模 ， 离 散 事 件 仿真 模型 得 以 工作 。 整 个 系统 的 状态 
由 赋 给 所 有 数据 结构 的 值 来 表示 。 模 型 通过 改变 数据 结构 中 的 一 个 或 多 个 域 来 改变 状态 。 在 银行 模型 中 ， 
数据 结构 (模型 实体 ) 的 例子 是 顾客 、 出 纳 员 和 顾客 的 排队 。 在 离散 事件 仿真 中 ， 模 型 状态 是 在 一 个 离散 
的 时 刻 改 变 的 (不 是 作为 发 生 在 现实 世界 的 连续 的 活动 )。 状 态 改变 是 在 模型 中 实现 的 ， 让 一 个 对 应 于 状 
态 改变 的 函数 在 适当 的 时 候 执行 。 在 银行 仿真 模型 中 ， 如 果 我 们 假定 仿真 以 所 有 的 出 纳 员 空闲 并 等 候 顾客 
开始 ， 第 一 个 顾客 到 达 时 ， 就 发 生 了 状态 变换 。 触 发 状态 变换 的 每 种 情况 〈 也 就 是 改变 数据 结构 的 被 执行 
KO 对 应 于 一 个 事件 。 
现在 ， 我 们 知道 了 这 种 机 制 中 “离散 ”和 “事件 ”的 概念 。 仿 真 指 的 是 发 生 在 模型 中 的 状态 变换 这 个 
事实 ， 而 不 是 在 现实 世界 中 ， 它 们 仅仅 是 为 系统 实体 的 行为 建 模 ， 并 不 是 实际 运行 。 例 如 ， 在 这 个 模型 
中 ， 没 有 一 个 人 事实 上 在 存 钱 和 取 钱 ， 我 们 仅仅 对 这 个 过 程 的 时 间 进 行 建 模 。 银 行 仿真 中 的 事件 可 能 是 ; 
e 事件 1 (顾客 到 达 事件 ): 这 会 使 得 仿真 器 运行 一 个 相关 的 函数 ， 它 会 创建 一 个 顾客 数据 结构 的 新 实 
例 ， 然 后 将 这 个 实例 放 进 表示 等 候 顾客 的 数据 结构 中 。 顾 客 数 据 结 构 中 的 域 应 能 唯一 地 标识 出 顾 
客 ， 保 存 顾客 到 达 的 时 间 ， 保 存 顾客 开始 接受 服务 的 时 间 ， 及 顾客 离开 银行 的 时 间 。 这 些 时 间 被 用 
来 确定 性 能 指标 ， 如 顾客 的 等 候 时 间 和 周转 时 间 。 在 顾客 进入 队列 后 ， 函 数 应 该 检查 是 否 有 空闲 的 
出 纳 员 ， 如 果 有 ， 顾 客 应 该 能 从 队列 中 移出 ， 并 能 与 出 纳 员 结 成 一 对 。 这 个 事件 也 可 以 安排 事件 1 
将 发 生 的 下 一 个 仿真 时 间 (也 就 是 说 ， 下 一 个 顾客 什么 时 候 到 达 )。 
EH 2 (顾客 离开 事件 )， 当 一 个 顾客 和 一 个 出 纳 员 开始 交易 时 ， 相 应 的 函数 将 调整 数据 结构 表示 将 
顾客 从 队列 中 移出 ， 并 将 他 与 出 纳 员 配对 。 然 后 ， 函 数 确定 了 交易 完成 的 时 间 ， 并 在 那 时 安排 事件 
2 发 生 。 当 一 个 出 纳 员 完成 一 个 交易 时 ， 下 一 个 顾客 会 与 出 纳 员 结对 。 如 果 没 有 顾客 在 等 待 ， 则 出 
纳 员 等 待 。 这 个 函数 能 够 确定 有 关 出 纳 员 活 劲 的 足够 信息 ， 知 道 出 纳 员 繁忙 和 空闲 的 时 间 量 。( 实 
际 的 函数 将 会 改变 在 这 儿 描 述 的 事件 顺序 ， 因 为 当 一 个 出 纳 员 完成 一 个 交易 时 这 个 事件 就 会 被 调 
”用 。) ` i 
与 银行 模型 有 关 的 这 部 分 仿真 称 为 仿真 应 用 (simulation application)。 你 应 该 能 够 对 许多 不 同 的 情况 进 
行 建 模 一 一 特别 是 银行 和 RR 调度 算法 行为 一 一 使 用 具有 属性 、 事 件 和 函数 的 实体 思想 。 仿 真 内 核 (simu- 
lation kernel) 是 整个 仿真 系统 的 一 部 分 ， 它 管理 仿真 时 间 ， 当 仿真 事件 在 正确 的 时 间 发 生 时 ， 它 会 调用 与 
事件 有 关 的 仿真 函数 。 仿 真 内 核 独立 于 所 有 的 仿真 应 用 ， 这 意味 着 相同 的 仿真 内 核 将 与 许多 不 同 的 应 用 工 
作 。 让 我 们 再 来 细 看 一 下 仿真 内 核 。 
面向 事件 仿真 的 框架 
仿真 内 核 是 调度 和 执行 仿真 过 程 的 一 般 框 架 ， 它 会 对 一 组 待 处 理事 件 作出 反应 。 仿 真 内 核 也 维护 仿真 
时 间 ， 收 集 有 关 仿 真 应 用 的 统计 数据 ， 并 产生 概要 报告 。 在 这 个 上 机 练习 中 ， 你 将 使 用 传统 的 程序 设计 语 
言 来 构建 自己 的 仿真 内 核 。 
面向 事件 仿真 内 核 的 主要 组 件 是 具有 以 下 功能 的 设施 : 定义 事件 、 表 示 仿 真 状态 (如 仿真 时 间 )、 引 
人 事务 到 模型 中 以 及 管理 事件 的 执行 。 一 个 特定 目的 的 仿真 语言 允许 程序 员 在 仿真 内 核 中 动态 地 注册 函数 
和 事件 。 然 而 ， 在 上 机 练习 中 ， 你 将 需要 修改 仿真 内 核 手 工地 注册 函数 和 事件 。 例 如 ， 如 果 仿 真 应 用 使 用 
了 函数 FE， 那么 你 需要 修改 内 核 使 得 它 能 调用 Fo 
一 个 事务 类 似 于 银行 中 的 顾客 交易 或 RR 调度 模型 中 的 作业 。 你 的 仿真 内 核 应 能 让 你 的 应 用 创建 事务 
(如 作业 )， 然 后 在 它们 运行 完成 时 销毁 它们 。 在 面向 对 象 的 语言 中 ， 对 象 是 事务 的 一 个 自然 表示 。 在 传统 
的 程序 设计 语言 如 C 中 ,事务 是 一 个 动态 分 配 的 数据 结构 实例 。 
事件 /函数 执行 是 仿真 内 核 的 主要 部 分 。 假 定 应 用 程序 员 确 定 : 在 event _ A 发 生 时 ,代表 着 transac- 
tion _k， 那 么 应 用 函数 下 应 该 被 调用 。 仿 真 内 核 应 该 导出 函数 如 ， 


cause (event _A,transaction_k,when_A_is_ to _ be_ executed); 


cause () 函数 被 应 用 程序 使 用 来 引起 在 某 个 仿真 时 间 过 后 event _ A 发 生 ， 它 代表 了 transaction_k, 
cause () 调用 将 一 个 数据 结构 〈 待 处 理事 件 描述 表 ) 置 人 待 处 理事 件 队 列 中 ， 并 按 仿真 时 间 发 生 的 时 间 
顺序 来 进行 排序 。 

仿真 和 内核 有 图 7-15 所 示 的 基本 框架 ，select _next _ event () 调 用 可 从 待 处 理事 件 安排 表 中 得 到 下 一 
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个 要 发 生 的 事件 。 因 为 这 个 事件 是 要 发 生 的 下 一 个 事件 ， 仿 真 内 核能 同时 将 仿真 时 间 重 定义 为 下 一 个 事件 











发 生 的 时 间 。evaluate O 过 程 调用 (或 解释 ) 给 m; 
定 事 务 上 的 仿真 应 用 事件 声明 ， 仿 真 内 核 有 自己 的 while (true) { 
竺 处理 事件 队列 。 注 意 ， 不 要 将 这 个 队列 与 仿真 应 | tyent © select EO ine) 
用 中 的 任何 队列 〈 像 银行 中 人 们 的 排队 或 RR 调度 simulated time = event->time; 
中 作业 的 就 绪 队 列 ) AREY. ) evaluate(event->function, ...); 
面向 事件 仿真 内 核 的 基本 任务 就 是 调度 待 处 理 
的 事件 ， 增 加 仿真 时 钟 ， 并 且 分 派 事 件 。 图 7-15 仿真 内 核 循环 
R 注 : 只 要 有 待 处 理 的 事件 ， 仿 真 内 核 循 环 就 
解决 问题 会 执行 。 它 找到 下 一 个 要 发 生 的 事件 ， 
解决 这 个 问题 有 两 个 步 又 : 增加 时 间 ， 然 后 调用 与 事件 发 生 相关 联 
1) 设计 和 实现 仿真 内 核 。 的 应 用 函数 。 


2) 设计 和 实现 仿真 应 用 。 
如 果 你 对 离散 事件 仿真 没有 什么 经 验 ， 那 么 首先 应 该 构建 一 个 仿真 内 核 的 草稿 版 本 。 这 里 是 一 个 仿真 
内 核 的 基本 循环 代码 框架 : 


void runkernel(int quitTime) 

‘ Event *thisEvent; 

// Stop by running to elapsed time, or by causing quit execute 

if(quitTime <= 0) quitTime = 9999999; 
simTime = 0; 
while(simTime < quitTime) { 
// Get the next event 
if(eventList == NIL) ¢ 
// No more events to process 
break; 
} 
thisEvent = eventList; 
eventList = thisEvent->next; 
simTime = thisEvent~>getTime(); // Set the time 
// Execute this event 
thisEvent->fire(); 
delete(thisEvent); 
}; 

} 

为 了 完成 仿真 内 核 ， 你 需要 设计 和 实现 一 些 未 表示 出 来 的 函数 ， 并 定义 一 些 新 的 函数 ， 如 cause () 
函数 ， 它 创建 一 个 事件 并 将 它 置 人 eventList。 写 一 个 小 的 仿真 应 用 ， 可 能 有 三 个 过 程 ， 如 A、B、C 来 测 
` 试 你 的 仿真 内 核 。 其 中 A 在 某 个 时 间 过 后 可 能 会 引用 B，B 在 某 个 时 间 过 后 会 引用 C，C 在 某 个 时 间 过 后 
会 引用 A 等 。 让 虚构 的 仿真 应 用 打印 状态 信息 ， 如 身份 、 当 前 时 间 等 。 

做 好 这 个 练习 的 第 二 个 任务 是 设计 和 实现 仿真 应 用 。 这 需要 使 用 本 章 的 主体 材料 来 作为 目标 系统 的 基 
础 ,定义 你 的 仿真 应 用 模型 。 设 计 仿 真 应 用 ， 让 每 个 过 程 实现 你 想 要 的 数据 结构 (如 系统 就 绪 队 列 ) RA 
变 仿真 状态 〈 如 创建 一 个 作业 、 将 一 个 作业 置 和 就绪 队列 、 分 派 一 个 作业 、 仿 真一 个 中 断 等 ) 。 

一 县 定义 了 所 有 的 仿真 应 用 模块 ， 你 可 以 将 它们 编码 成 过 程 ， 它 们 将 与 仿真 内 核 一 起 工作 。 如 果 你 从 
没有 构建 过 仿真 模型 ， 那 在 开发 你 的 第 一 个 仿真 应 用 中 ， 可 以 重 定义 你 的 仿真 内 核实 现 。 

最 后 一 步 是 实现 你 的 仿真 应 用 ， 使 得 它 收集 你 需要 测量 的 模型 性 能 的 数据 。 你 需要 在 不 同 的 上 下 文 切 
换 时 间 和 不 同 的 时 间 片 设置 下 比较 系统 的 性 能 。 对 每 一 个 特定 的 设置 (上下文 切换 时 间 和 时 间 片 值 )， 你 
的 仿真 模型 都 应 能 产生 性 能 测试 数据 。 

为 了 得 到 数据 ， 对 每 个 设置 你 都 应 当 多 次 运行 仿真 。 当 尝试 了 不 同 的 组 合 后 ， 你 能 够 把 性 能 指标 用 图 
画 出 来 。( 你 不 必 使 用 图 形 软件 绘 出 相关 的 数据 ， 你 可 以 将 数据 放 和 电子 表格 中 ， 并 用 图 形 选 项 画 出 它 。) 





第 8 章 ”基本 同步 原理 


多 道 程 序 设计 为 并 发 经 典 进程 建立 了 执行 环境 ， 这 使 得 程序 员 可 以 创建 一 组 协作 进程 来 并 发 地 解决 一 个 问 
题 。 如 果 在 一 个 进程 使 用 处 理 器 时 ， 其 他 的 进程 可 以 执行 LO 操作 ， 则 这 种 方式 的 计算 可 以 表现 出 真正 的 并 行 
执行 。 如 果 这 组 协作 进程 在 多 处 理 器 上 执行 ， 则 组 中 的 多 个 进程 可 以 并 行 执行 。 线 程 概念 的 引入 使 得 单个 进程 
可 以 利用 处 理 器 和 1/O 之 间 的 并 行 性 以 及 多 处 理 器 上 CPU 间 的 并 行 性 。 然 而 ， 在 软件 实现 中 ， 多 个 协作 线程 为 
TH (synchronization) 又 引入 了 新 问题 : 死 锁 、 临 界 区 和 非 确定 性 。 当 两 个 或 多 个 并 发 进程 /线程 使 用 任何 共 
享 资源 时 ， 这 些 同步 问题 就 会 发 生 。 在 这 一 章 中 ， 我 们 先 来 看 一 下 同步 问题 是 如 何在 并 发 应 用 中 出 现 的 ， 然 后 
来 看 一 下 解决 同步 问题 的 抽象 机 制 ， 最 后 我 们 将 讨论 操作 系统 实现 这 些 抽象 机 制 的 方法 。 


8.1 协作 进程 


在 以 前 的 程序 设计 课程 上 ， 你 学 到 了 程序 是 一 个 顺序 算法 的 实现 一 一 它 是 逐步 完成 信息 处 理 任务 的 过 
程 。 设 计 顺 序 算法 来 实现 指定 计算 的 科学 (和 艺术 ) 已 经 统治 了 程序 设计 将 近 半 个 世纪 。 因 此 ， 计 算 环 境 着 
重 于 支持 顺序 计算 。 经 典 进程 和 现代 线程 都 是 执行 顺序 算法 的 抽象 。 尽 管 流行 的 程序 设计 语言 如 C 和 C++ 
一 般 都 忽略 了 并 发 性 ， 然 而 ， 底 层 的 硬件 技术 已 经 系统 地 朝 着 并 行 与 分 布 式 接近 。 经 济 压力 迫使 在 并 行 与 分 
布 式 系统 上 应 用 的 发 展 。 这 个 趋势 在 现代 管理 信息 系统 中 、 办 公 计 算 环境 中 和 数字 应 用 中 已 经 十 分 明显 。 

在 我 们 的 日 常 工作 生活 中 ， 也 会 常常 磁 上 同步 问题 。 假 定 Betty, John 和 Pat 决定 在 Betty 的 办 公 室 开 
会 。 他 们 必须 确定 会 议 的 时 间 。 每 个 人 通过 查询 日 历来 决定 他 们 什么 时 候 碰 面 。 通 过 对 会 议 的 时 间 达 成 一 
致 协议 ， 他 们 同步 各 自 的 时 间 表 使 得 他 们 将 在 同一 时 间 到 达 办 公 室 。 在 一 部 间谍 电影 中 ， 同 步 可 以 达到 更 
细 的 粒度 : 假定 一 支队 伍 有 一 个 缆 击 堡垒 的 计划 ， 队 伍 中 的 每 个 成 员 必须 准备 在 同一 时 间 如 5:00 执行 一 
个 特定 的 任务 ， 所 有 的 成 员 都 有 自己 的 任务 。 在 这 种 情况 下 ， 队 伍 中 的 所 有 成 员 都 必须 准确 地 在 同一 时 间 
执行 他 们 的 行动 。 在 队伍 中 的 成 员 开 始 他 们 的 任务 之 前 ， 比 如 说 1:00， 他 们 都 将 手表 设置 为 1:00， 确 定 
时 间 同 步 。 这 保证 了 在 4 小 时 以 后 ， 他 们 将 在 同一 时 刻 执 行 特定 的 任务 。 

在 软件 环境 中 ， 同 步 指 的 是 确保 独立 的 进程 /线程 开始 在 同一 逻辑 时 间 执 行 一 个 指定 代码 块 的 行为 。 
现在 我 们 来 看 一 下 在 并 发 软件 中 同步 是 如 何 出 现 的。 第 2 章 中 的 UNIX 和 Windows 例子 中 就 已 经 介绍 了 并 
发 软件 。 在 UNIX 的 例子 中 ， 你 看 见 了 怎样 使 用 父 进程 来 实现 shell 命令 行 解释 器 ， 并 要 一 一 个 了 进程 来 扫 
行 每 个 命令 。 下 面 是 代码 的 主 循环 : 


while(TRUE) { 


// Create a process to execute the command 
if((chPID = fork()) == 0) { 
// This is the child 
execv(command.name, command.argv); 


} 

// Wait for the child to terminate 
thisChPID = wait(&stat); 

} 


在 Windows 例子 中 ， 父 进程 创建 子 进程 ， 但 它 在 创建 下 一 个 子 进程 之 前 并 不 等 候 子 进程 完成 。 下 面 是 
代码 的 主 循环 : 
while (fgets(cmdLine, MAX_LINE LEN, fid) != NULL) { 


// b. Create a new process to execute the command 


if ({CreateProcess(NULL, cmdLine, ...) 
{ /* error handling code ... */ } 
} 
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图 8-1 是 表示 两 个 上 机 练习 的 代码 框架 的 图 : 每 个 大 圆圈 表示 一 个 代码 块 〈 如 执行 命令 )。 小 圆圈 表 
示 线 程 的 执行 可 以 在 那儿 分 支 ， 可 以 分 支 到 某 一 条 路 径 或 是 另 一 条 路 径 〈 如 另 一 个 命令 )。 箭 头 表示 了 贺 
圈 中 代码 块 间 的 控制 流 。 并 发 是 由 多 个 箭头 离开 一 个 大 圆圈 而 表示 的 〈 如 fork () 代码 圈 )。“ 等 候 子 进程 
终止 ”大 圆圈 表示 了 并 发 控制 流 合并 成 一 个 串 行 执行 〈 两 个 箭头 进入 大 圆圈 ， 只 有 一 个 箭头 离开 大 圆圈 )。 


进入 循环 进 人 循环 









fork() 代 码 CreateProcess () 代码 





执行 命令 


等 待 子 进程 终止 执行 命令 执行 命令 


a) UNIX Shell b) Windows 命令 处 理 


图 8-1 命令 执行 
È: 图 a) 表示 了 UNIX 代码 段 的 控制 流 。 父 进程 在 启动 下 面 的 工作 之 前 要 等 竺 每 个 子 进程 终止 ， 父 进程 是 以 这 
种 方式 来 与 子 进程 进行 同步 的 。 图 b) 是 Windows 代码 段 的 控制 流 类 型 。 在 这 种 情况 下 ， 父 进程 创建 一 个 子 
进程 ， 但 并 不 与 子 进程 进行 同步 ， 相 反 ， 父 进程 可 以 执行 下 一 个 命令 来 创建 下 一 个 子 进 程 。 


在 图 8-1a 中 我 们 知道 父 进程 〈 带 阴影 的 圈 ) 创建 一 个 子 进程 来 执行 命令 ， 并 在 读 下 一 个 命令 之 前 等 候 
子 进 程 终止 。 当 这 个 程序 处 理 5 个 命令 时 ， 执 行 这 些 命令 的 5 个 进程 是 顺序 创建 的 ， 父 进程 同时 至 多 与 一 
个 子 进程 并 发 执行 。 
在 图 8-1b 所 示 的 Windows 程序 中 ， 父 进程 创建 一 个 子 进 程 来 执行 命令 ， 然 后 立即 回 到 循环 的 顶部 来 
创建 另 一 个 子 进 程 执行 另 一 个 命令 。 当 这 个 程序 处 理 5 个 命令 时 ， 被 创建 执行 这 些 命令 的 5 个 进程 是 同时 
运行 的 。 父 进程 和 所 有 的 子 进程 之 间 是 并 发 执行 的 。 
在 上 述 两 种 情形 下 ， 两 个 程序 间 (不 考虑 不 同 的 操作 系统 ) 的 基本 区 别 是 6 个 进程 执行 的 协作 方式 。 
在 图 8-1a 中 ， 在 子 进 程 终止 时 ， 父 进程 与 子 进程 进行 同步 ， 在 图 8-1b 中 ， 在 父 进 程 和 子 进程 之 间 没 有 
同步 。 
这 里 是 来 自 第 2 章 的 另 一 个 例子 ， 在 章 末 的 上 机 练习 中 ， 要 编写 一 组 并 发 执行 的 程序 ， 使 得 父 线程 创 
建 NN 个 子 线程 ， 当 这 组 子 线程 应 该 停止 执行 时 ， 父 线程 要 给 每 个 子 线程 发 送信 号 (这 是 进程 内 的 一 组 线 
程 间 的 同步 问题 ， 而 不 是 一 组 经 典 进程 间 的 同步 问题 )。 在 这 种 情况 下 ， 子 线程 定期 地 与 父 线 程 进行 同步 。 
如 果 父 线程 没有 发 出 信号 来 进行 同步 ， 则 子 线程 继续 进行 计算 。 下 面 是 父 线程 代码 的 一 个 简化 版 本 ， 它 比 
练习 中 出 现 的 代码 更 简单 (尽管 它 基 本 上 是 做 相同 的 事情 ): 
static int runFlag = TRUE; 
void main(... { 
// For 1 to N 
for (i = 0; i < N; itt) { 


// Create a new thread to execute simulated work 
CreateThread(...); 
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} 
// runtime is the number of seconds that the children should run 


// Sleep while children work ... 
Sleep(runtime*1000); 
RunFlag = FALSE; 
) tee 
Sleep (K) 调用 会 使 得 线程 睡眠 K BP, BORA Sleep (1000) 将 促使 线程 睡眠 1 秒 。 这 个 代码 框架 
使 用 系统 时 间 来 确定 子 线程 应 该 运行 多 长 时 间 ， 当 子 线程 在 runTime 秒 内 运行 时 ， 父 线程 睡眠 。 下 面 是 每 
个 子 线程 的 代码 框架 : 
DWORD WINAPI threadWork(LPVOID threadNo) { 


while(runFlag) { 
// Do one iteration of work, then check the runPlag 


} 
// The parent just signaled me to halt 
return result; 


} 


图 8-2 是 父 线程 和 子 线程 行为 的 另 一 个 描述 。 在 这 个 图 形 模型 中 ， 有 N + I 个 线程 并 发 执行 。 不 是 在 
线程 终止 时 进行 同步 ， 每 个 线程 试图 在 循环 结束 时 进行 同步 。 如 果 它 接收 到 来 自 父 进程 的 终止 信号 ， 然 后 
它 终 止 。 要 不 然 ， 它 进行 下 一 次 循环 。 

这 种 技术 适用 于 共享 一 个 地 址 空间 的 线程 ， 但 对 进程 并 不 适用 ， 因 为 进程 之 间 并 不 共享 地 址 空间 。 在 
这 节 的 后 面 你 将 看 到 ， 上 述 同 步 线程 的 技术 可 能 失败 。 提 供 健壮 和 有 用 的 同步 机 制 是 多 道 程序 设计 操作 系 
统 中 的 一 个 基本 问题 。 这 一 章 首先 解释 同步 为 什么 是 一 个 困难 的 问题 ， 然 后 讨论 怎样 通过 Dijkstra 信号 量 
这 个 基本 的 机 制 来 解决 这 个 问题 。 

因为 并 发 是 有 用 的 ， 可 以 构建 线程 来 运行 并 发 程序 。 由 此 线程 间 可 以 共享 信息 ， 让 它们 各 自在 临界 区 
内 执行 时 并 不 互相 干涉 。 影 响 当 代 应 用 程序 有 效 使 用 并 发 的 主要 阻碍 来 自 以 下 几 方面 : 

u 软件 技术 还 没有 聚集 于 通用 应 用 并 发 程序 范例 ， 每 个 并 发 程序 设计 解决 方法 潜在 需要 一 个 新 方法 和 

设计 。 这 是 分 布 式 程序 设计 的 主要 焦点 。 

里 同步 常常 是 并 发 程序 设计 实现 的 重点 ， 典 型 的 操作 系统 只 提供 了 最 少 的 机 制 来 支持 同步 和 并 发 ， 有 

很 多 不 同 的 方法 实现 并 发 ， 而 且 没 有 一 种 占 主导 地 位 (示例 参见 [Jamieson et al. ，1987])。 这 一 章 
和 第 9 章 研究 了 同步 的 复杂 性 。 
m 使 用 同步 机 制 的 一 个 难点 是 找到 一 种 好 的 方法 为 高 级 程序 设计 语义 表示 并 发 ， 将 同步 机 制 无 颖 地 整合 
到 并 发 程序 设计 语言 中 。 许 多 广泛 使 用 的 并 行程 序 设计 语言 根本 就 不 解决 并 发 问题 。 现 代 语 言 如 Java 
和 C# 为 多 个 活动 对 象 〈 一 种 并 发 形式 ) 提供 了 扩展 ， 但 是 C 和 C++ 根本 就 不 支持 同步 和 并 发 。 


8.1.1 临界 区 


在 一 个 交通 系统 中 ,十字路 口 是 街 道 的 一 部 分 ， 但 是 也 是 街道 的 唯一 由 两 个 不 同 的 街道 共享 的 一 部 分 
( 见 图 8-3)。 在 这 幅 图 中 ， 一 辆 公共 汽车 在 沿 着 一 条 街道 行驶 ， 而 一 辆 小 汽车 正在 沿 着 另 一 条 街道 行驶 。 
如 果 公 共 汽 车 和 小 汽车 同时 到 达 十 字 路 口 ， 它 们 将 会 碰撞 。 我 们 说 十 字 路 口 是 每 条 街道 的 临界 区 (critical 
section): 如 果 公 共 汽 车 没有 使 用 十 字 路 口 ， 则 小 汽车 就 可 以 使 用 它 ; 如 果 小 汽车 没有 使 用 十 字 路 口 ， 则 公 
共 汽 车 就 可 以 使 用 它 。 然 而 ， 如 果 公 共 汽 车 和 小 汽车 同时 走 进 临 界 区 ， 我 们 知道 将 会 有 一 个 “交通 事故 ”。 

当 两 个 进程 或 线程 访问 同一 个 共享 变量 时 ， 就 会 产生 临界 区 问题 。 就 像 公共 汽车 和 小 汽车 一 样 ， 两 个 
进程 有 一 些 部 分 不 能 并 发 执行 。 例 如 ， 假 定 两 个 进程 p 和 p 并 发 执行 访问 同一 个 整 型 变量 balance。 例 
如 ， 进 程 pi 可 以 处 理 帐户 的 存款 ， 思 处 理 借款 。 两 个 都 需要 在 不 同 的 时 间 访 问 帐 户 余额 balance 变量 
(访问 balance 与 走 进 一 个 十 字 路 口 类 似 )。 代 码 会 在 大 多 数 的 时 间 准 确 工作 : 对 存款 操作 ，pi 增加 余额 ; 
对 取款 操作 ，z2 减少 余额 。 然 而 ， 如 果 两 个 进程 并 发 地 访问 balance 变量 ， 会 发 生 灾难 性 的 错误 。 下 面 的 
代码 框架 显示 了 线程 如 何 访问 共享 的 变量 balance。 
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等 待 run Time # 





runFlag=FALSE 
runFlag? 


图 8-2 用 共享 变量 来 同步 多 个 线程 
注 : 父 线程 创建 N 个 子 线程 ， 每 个 子 线程 是 作为 循环 而 运行 的 。 在 循环 未 尾 ， 每 个 线程 进行 检查 来 看 run- 
Flag 是 否 已 经 被 设置 为 FALSE。 如 果 还 未 设置 成 FALSE， 子 线程 继续 进行 循环 。 如 果 runFlag 标志 被 设置 
为 FALSE， 则 子 线程 终止 。 





图 8-3 ”交通 十 字 路 口 
注 : 交通 十 字 路 口 是 两 条 街道 的 临界 区 ， 从 某 种 意义 上 说 ， 同 一 时 刻 仅 有 一 辆 汽车 可 以 在 十 字 路 口上 。 


shared double balance; /* shared variable */ 
Pi 的 代码 框架 p 的 代码 框架 


balance= balance + amount; balance= balance-amount; 


这 些 C 语 言语 句 会 被 编译 成 几 条 机 器 指令 ， 如 下 所 示 : 
Pi 的 代码 框架 P2 的 代码 框架 
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load R1, balance load R1, balance 
load R2, amount load R2, amount 
add Rl, R2 sub R1, R2 

store Rl, balance store Rl, balance 


现在 假定 pi 在 执行 机 器 指令 


load R2, amount 


这 时 如 果 间 隔 计 时 器 到 期 ， 调 度 程序 选择 线程 p, 来 运行 并 执行 “balance= balance-amount” 的 机 器 语言 
代码 段 ， 它 在 pi 得 到 处 理 器 的 控制 之 前 得 到 运行 。 我 们 将 有 图 8-4 所 示 的 执行 情景 。 在 这 个 特定 的 执行 
情景 中 (由 计时 器 发 生 中 汤 的 时 间 来 确定 )， 发 生 了 下 面 的 动作 序列 : 
E“ p 被 中 断 时 ， 上 下 文 切换 将 其 寄存 器 值 存 人 pi 的 进程 描述 表 中 。 
4 py 被 分 配 处 理 器 时 ， 它 读 取 balance 的 值 ， 这 和 pi 读 出 的 值 一 样 ， 然 后 计算 balance 和 amount 
间 的 差 ， 并 将 这 个 差 存 进 包含 balance 的 内 存单 元 中 。 
Bp, 最 终 将 恢复 执行 ， 使 得 寄存 器 值 会 从 进程 描述 表 中 焦 复 。balance 为 旧 值 ， 因 为 在 pi 被 中 断 时 ， 
它 已 经 被 加 载 到 Ri 中 。 
m pi 将 计算 RI (balance 的 旧 值 ) Ai R2 (amount) 的 和 ， 然 后 产生 一 个 和 po 写 人 的 不 同 的 balance 值 。 
mH p, 更 新 的 balance 值 将 会 遗失 。 
pi 和 p 的 程序 都 有 一 个 临界 区 ， 它 们 都 是 关于 共享 变量 balance 的 使 用 。 对 pi 来 说 ， 临 界 区 是 计算 
balance 与 amount 的 和 ， 对 po 来 说 ， 临 界 区 是 计算 balance 与 amount 的 差 。 两 个 线程 的 并 发 执行 并 不 保 
证 是 确定 的 〈determinate) ， 因 为 两 个 程序 对 相同 数据 的 每 次 执行 可 能 会 产生 不 一 样 的 结果 。 
P, 的 执行 P, 的 执行 


load Rl, balance 
load R2, amount 


计时 器 中 断 
load Rl, balance 
load R2, amount 
sub RI, R2 
store R1, balance 
计时 器 中 断 wt 


add R1, R2 
store R1, balance 


图 8-4 临界 区 
TE: 当 pi 完成 了 load 指令 后 ， 它 被 中 断 了 。p2 开始 执行 ， 它 将 balance 与 amount 进行 相 减 ， 并 将 结果 存 进 存 
储 器 中 。 当 pi 恢复 执行 时 ， 它 更 新 balance 值 ， 用 它 的 结果 覆盖 掉 balance, 


我 们 说 在 pi 和 p, 之 间 会 出 现 竞争 状态 (race condition) ， 因 为 计算 的 结果 依赖 于 两 个 进程 执行 各 自 临 
界 区 的 相对 时 间 。 如 果 两 个 进程 在 同时 执行 它们 的 临界 区 ， 计 算 结构 可 能 是 错误 的 。 

仅 通 过 考虑 和 p 的 程序 是 不 能 发 现 临 界 区 问题 的 (或 竞争 状态 ) 。 问 题 发生 的 原因 是 共享 ， 而 不 
是 顺序 代码 中 的 任何 错误 。 临 界 区 问题 可 以 通过 以 下 方式 来 避免 ， 当 一 个 线程 当前 处 于 临界 区 时 ， 则 另 一 
个 线程 就 不 允许 进入 它 相 应 的 临界 区 中 。 

两 个 线程 怎样 来 协作 走 进 它们 的 临界 区 中 呢 ? 在 交通 十 字 路 口 的 例子 中 〈 见 图 8&3)， 我 们 增加 了 一 个 交通 
信号 使 得 公共 汽车 或 者 小 汽车 可 以 继续 行驶 〈 不 能 同时 行驶 )， 这 取决 于 信和 号 。 在 一 个 多 道 程序 设计 的 单 处理 器 
系统 中 ， 中 断 可 以 使 一 个 进程 停止 执行 并 使 另 一 个 进程 开始 执行 。 如 果 程 序 员 意识 到 中 断 的 发 生 会 导致 错误 的 
结果 ， 则 他 可 以 像 交 通 灯 一 样 来 控制 中 断 : 程序 在 进入 临界 区 时 会 屏蔽 中 断 ， 在 完成 临界 区 的 执行 时 使 能 中 断 。 

图 8-5 解释 了 如 何 使 用 enableInterrupt () 和 disableInterrupt () 孙 数 来 对 帐户 余额 程序 进行 编 
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码 : 这 个 解决 办 法 不 允许 两 个 进程 同时 在 它们 的 临界 区 中 。 当 一 个 进程 进入 它 的 临界 区 时 ， 中 断 被 屏蔽 ， 
当 该 进程 结束 它 的 临界 区 执行 时 ， 再 开放 中 断 。 当 然 ， 这 种 技术 可 能 影响 到 1/0 系统 的 行为 ， 因 为 中 断 屏 
蔽 是 由 应 用 程序 决定 的 ， 所 以 可 能 会 被 屏蔽 任意 长 的 时 间 。 特 殊 情 况 下 ， 假 设 程序 中 的 临界 区 包含 一 个 无 
限 循 环 ， 那 么 中 断 就 会 被 永久 屏 项 。 由 于 上 述 原因 ， 用 户 模式 下 的 程序 通常 不 能 使 用 enableInterrupt () 
和 disableInterrupt () 函数 。 





shared double amount, balance; /* Shared variables */ 


Program for p, Program for p, 
disableInterrupts(); disableInterrupts(); 
balance = balance + amount; balance = balance - amount; 


enableInterrupts(); enableInterrupts(); 





图 8-5 屏蔽 中 断 实 现 临界 区 
È: 当 一 个 进程 进入 它 的 临界 区 时 ， 中 断 被 屏蔽 ， 然 后 当 该 进程 结束 临界 区 执行 时 ， 再 开放 中 斯。 


相对 图 8-5 所 示 解 决 方案 的 另 一 种 选择 是 不 请 求 中 断 屏蔽 ， 从 而 避免 屏蔽 中 断后 处 理 器 运行 太 长 或 无 
限 计算 时 间 的 问题 。 它 的 思想 是 使 用 另外 一 个 共享 变量 ( 称 为 锁 )， 使 两 个 进程 明确 地 协同 它们 的 活动 ， 
从 而 同步 它们 的 运行 〈 即 该 方案 依赖 于 操作 系统 所 提供 的 共享 变量 )。 图 8-6 中 使 用 了 标志 变量 lock， 使 
得 pi 和 pa 能 够 协同 它们 对 balance 的 访问 。( 语 名 NULL 用 于 强调 while 循环 体 是 空 的 ， 在 随后 的 例子 中 ， 
我 们 也 将 忽略 循环 体 中 的 所 有 语句 。) 当 进 程 p 进入 临界 区 ， 它 设置 共享 变量 lock， 因 而 进程 p 被 阻止 
进入 它 的 临界 区 。 类 似 地 ， 进 程 p 使 用 lock 去 阻止 进程 pi 在 不 适当 时 间 内 进入 它 的 临界 区 。 





| sharea boolean lock = FALSE; /* Shared variables */ | 
shared double amount, balance; /* Shared variables */ 
Program for p, Program for p, 
/* Acquire lock */ /* Acquire lock */ 
while(lock) {NULL;}; while(lock) {NULL;}; 
lock = TRUE; lock = TRUE; 
/* Execute crit section */ /* Execute crit section */ 
balance = balance + amount; balance = balance - amount; 
/* Release lock */ /* Release lock */ 
lock = FALSE; lock = FALSE; . 
d 











图 8-6 使 用 锁 来 实现 临界 区 
TE: 在 这 个 解决 方案 中 ，lock 变量 用 来 协调 两 个 进程 进入 临界 区 。 在 临界 区 入 口 时 ， 如 果 lock 为 rTRUE， 则 进程 
等 待 。 


图 8-7 解释 了 两 个 线程 竞争 使 用 临界 区 的 情形 。 假 定 pi 在 下 面 的 语句 执行 时 被 中 断 : 

balance = balance + amount; 

此 时 ，lock 被 置 为 TRUE， 进 程 p 开始 执行 ; 当 执行 到 while 语句 时 ， 进 程 等 候 获得 lockk， 等 待 进入 它 的 临 
界 区 。 最 后 ， 时 钟 中 断 将 会 中 断 进程 p。， 并 重新 执行 进程 p,， 使 它 完成 临界 区 的 执行 。p, 的 整个 时 间 片 都 花费 
在 执行 while 语 句 上 。 当 p, 执行 语句 lock= FALSE; 时 ，z 表明 它 已 经 结束 了 临界 区 的 执行 。 最 后 ， Pi 又 被 
时 钟 中 断 ， 然 后 pz 能 够 进入 它 的 临界 区 继续 工作 。 

图 8-7 显示 的 方法 概念 上 是 合理 的 ， 它 引信 了 有 关 测 试 和 设置 锁 变量 的 新 的 临界 区 问题 。 如 果 线 程 在 
执行 完 while 语句 后 ， 并 在 设置 锁 以 前 立即 被 中 新 ， 那 么 这 种 解决 方法 失效 了 ; 两 个 进程 都 可 以 同时 在 它 
们 的 临界 区 内 执行 。 操 纵 锁 变 量 本 身 也 是 一 个 临界 区 问题 ， 在 你 解决 最 初 的 临界 区 问题 (操作 balance) 
之 前 ， 必 须要 解决 一 个 小 临界 区 问题 (操作 锁 )。 

操作 lock 的 临界 区 与 操作 balance 的 临界 区 间 有 重要 的 区 别 ， 每 次 进程 想 要 走 进 临界 区 时 ，1lock ik 
界 区 的 代码 都 是 相同 的 。 但 是 balance 临界 区 的 代码 是 由 应 用 来 决定 的 ， 可 能 要 花 一 段 较 长 的 时 间 来 执 
行 ， 其 中 甚至 包含 了 无 限 循环 。 知 道 了 lock 操作 的 有 关 知 识 后 ， 我 们 意识 到 在 测试 和 设置 lock 变量 时 ， 
它 仅 仅 包含 3 一 4 条 机 器 指令 ， 一 般 来 说 ， 使 用 屏蔽 中 断 是 可 接受 的 。 因 为 enableInterrupts () 和 dis- 
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ableInterrupts () 都 是 内 核 函数 ， 我 们 可 以 定义 两 个 新 的 操作 系统 调用 ，enter () 和 exit ()， 如 图 8-8 

所 示 。 使 用 这 种 方法 ， 进 程 在 想 要 进入 临界 区 时 可 以 调用 enter ()， 当 它 离 开 临 界 区 时 可 以 调用 exit ()。 

在 这 种 情况 下 ， 中 断 仅 能 被 操作 系统 代码 ( 当 对 锁 操作 时 ) 所 屏 项 。 甚 至 当 进程 被 阻塞 时 ， 等 候 进 入 它 的 

临界 区 ， 中 断 也 仅 屏 项 几 条 指令 。 这 避免 了 在 应 用 程序 屏 项 中 断 时 引起 的 屏蔽 中 断 时 间 过 长 等 问题 。 
sea 正常 执行 


n Hh FE 执行 
es me 尝试 进 和 临界 区 


(在 while 处 阻塞 ) 
Po WAT pr m m 


PRAT 














中 断 
中 断 


5 
[Sa 
i 
ad 
Du 
ie] 
a 


lock=FALSE 


图 8-7 执行 图 示 
TE: 当 pi 在 临界 区 时 ，p, 在 while 语句 时 等 待 。 在 这 种 情况 下 ，p, 将 使 用 整个 时 间 片 来 执行 wait 代码 。 


enter () 和 exit O 系统 调用 能 用 来 解决 一 般 的 临界 区 问题 (我 们 将 在 8.3 节 中 研究 一 个 更 一 般 的 
机 制 )。 下 面 的 代码 显示 了 如 何 用 它们 来 解决 balance 操作 问题 : 


shared double amount, balance; /* Shared variables */ 

shared int lock = FALSE; /* Synchronization variable */ 
Program for p, Program for p, 

enter (lock); enter (lock); 

balance = balance + amount; balance = balance ~ amount; 
exit (lock); exit (lock); 


enter(lock) { exit(lock) { 
disableiInterrupts(); disableInterrupts(); 
/* Wait for lock */ lock = FALSE; 
while(lock) { ` enableInterrupts(); 
/* Let interrupt occur */ 
enableInterrupts(); 


disableInterrupts(); 
} 
lock = TRUE; 
enableInterrupts(); 
} 





图 8-8 ” 锁 操 作 被 看 作 一 个 临界 区 
注 : enter () 系统 调用 使 用 while 语句 来 等 候 临界 区 变 得 可 用 。 在 再 次 开 中 断 前 ， 它 仅 使 几 条 机 器 指令 执行 时 
间 内 不 响应 中 断 。 这 使 得 中 断 的 延迟 不 超过 几 条 指令 的 执行 时 间 。 
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8.1.2 死 锁 


临界 区 问题 对 并 发 程序 设计 来 说 是 非常 基本 的 问题 ， 在 各 个 进程 操纵 共享 资源 时 (如 变量 )， 解 决 临 
界 区 问题 的 算法 也 是 计算 的 一 部 分 。 临 界 区 的 存在 导致 了 一 个 新 的 问题 的 发 生 : 死 锁 (deadlock)。 在 死 锁 
情形 中 ， 两 个 或 多 个 进程 /线程 进入 了 下 面 这 样 一 个 状态 : 每 个 进程 /线程 在 控制 其 他 进程 /线程 所 需要 的 
资源 。 例 如 ， 假 定 有 两 个 海盗 ， 每 个 海盗 都 有 藏 宝 图 的 一 半 ( 见 图 8-9) ， 每 个 海盗 需要 另 一 半 地 图 来 获得 
财宝 ， 但 是 他 们 两 个 都 不 会 放弃 自己 拥有 的 地 图 。 这 就 是 死 锁 

在 软件 中 ， 因 为 一 个 进程 在 请 求 资源 (如 文件 B) 时 持 有 另 一 个 资源 (如 文件 A); 同时 另 一 个 进程 持 有 文 
件 B， 然 而 ， 它 在 请 求 文件 A。 这 样 就 有 可 能 发 生死 锁 。 因 为 一 个 资源 请 求 会 一 直 阻 塞 调用 者 进程 直到 资源 被 分 
配 ， 两 个 进程 都 得 不 到 自己 想 要 的 资源 ， 这 样 两 个 进程 都 永久 地 保持 在 死 锁 状态 (deadlock state)。 





图 8-9 处 于 死 锁 状 态 的 两 个 海盗 
注 : 每 个 海盗 拥有 藏 宝 图 的 一 半 ， 为 了 找到 宝藏 都 需要 另 一 半 地 图 。 


下 面 是 男 一 个 具体 的 例子 : 假定 有 两 个 线程 p, 和 p,， 它 们 都 对 一 个 公共 的 列表 进行 操作 。 每 个 任务 能 够 增加 
或 删除 一 个 列表 项 ， 并 且 需 要 更 新 列表 头 中 的 列表 长 度 。 也 就 是 说 ， 当 一 个 删除 操作 发 生 时 ， 长 度 必须 减少 。 为 了 
确保 列表 与 列表 头 之 间 保持 一 致 性 ， 我 们 可 以 首先 试 试图 8-10 所 使 用 的 方法 (尽管 它 是 一 个 不 正确 的 解决 方案 )。 
MRR pi 和 p, 并 发 执行 : 
B E pi 删除 元 素 之 后 但 是 在 它 更 新 列表 长 度 之 前 可 能 会 发 生 时 钟 中 断 。 
BFR p 增加 一 个 元 素 到 列表 并 且 在 pi tii 那么 列表 的 实际 元 素 个 数 和 描述 
表 中 的 长 度 会 出 现 不 一 致 的 状态 


shared boolean lockl = FALSE; 
shared boolean lock2 = FALSE; 










/* Shared variables */ 













shared list L; 
Program for p, Program for p, 
/* Enter crit section to /* Enter crit section to 
* delete elt from list */ * update length */ 
enter (lock1); enter (lock2); 
<delete element>; <update length>; 
n /* Exit critical section */ /* Exit critical section */ 





图 8-10 ”使 用 中 断 屏蔽 共享 变量 


TE: 这 个 解决 方案 中 使 用 了 enter () 和 exit O 来 封装 两 个 临界 区 。 问 题 是 pi 会 在 从 列表 中 删除 一 个 元 
素 后 ， 并 在 更 新 列表 头 之 前 被 中 断 。 如 果 p 接着 运行 ， 那 么 列表 和 列表 头 会 处 于 不 一 致 的 状态 。 
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上 exit (lockl); exit (lock2); 
<intermediate computation>; <intermediate computation>; 
/* Enter crit section to /* Enter crit section to 
* update length */ * add elt to list */ 
enter (lock2); enter (lock1); 
<update length>; <add element>; 
/* Exit critical section */ /* Exit critical section */ 
exit(lock2); exit(lockl); 
8-10 (4) 
在 这 个 例子 中 ， 一 个 进程 应 该 要 么 更 新 了 列表 以 及 它 的 长 度 ， 要 么 都 不 进行 更 新 。 因 此 我 们 尝试 一 种 


不 同 的 解决 方案 ， 把 对 列表 和 描述 表 中 内 容 的 修改 ， 放 在 一 个 更 复杂 的 临界 区 框架 中 进行 ， 如 图 8-11 所 示 。 
BY p 进入 它 的 临界 区 去 修改 列表 时 ， 它 要 设置 锁 lock1。 
ME p2 检测 lockl 时 ,会 阻止 p: 进入 它 的 临界 区 去 修改 列表 。 





FALSE; 
FALSE; 


shared boolean lockl 
shared boolean lock2 
shared list L; 
Program for p, 


/* Enter crit section to 
* delete elt from list */ 
enter(lockl); 
<delete element>; 
<intermediate computation>; 
/* Enter crit section to 
* update length */ 
enter (lock2); 
<update length>; 
/* Exit both crit sections */ 
exit(lock1); 
exit (lock2); 





/* Shared variables */ 


Program for p, 


/* Enter crit section to 
* update length */ 
enter (lock2); 
<update length>; 
<intermediate computation>; 
/* Enter crit section to 
* add elt to list */ 
enter (lock1); 
<add element>; 
/* Exit both crit sections */ 
exit (lock2); 
exit(lock1); 





图 8-11 保证 相关 变量 一 致 性 
TE: 在 这 个 对 列表 修改 问题 的 解决 方案 中 ， 如 果 pi 在 获取 lock! 之 后 被 中 断 ， 但 是 在 它 获取 lock2 Zi, pz 


更 新 了 列表 ， 那 么 两 个 进程 会 死 锁 。 


里 当 p; 拥有 锁 时 ， 也 可 以 进入 它 的 临界 区 去 修改 列表 ; 从 而 通过 锁 


修改 和 更 新 操作 。 


E 假设 pi 在 < intermediate computation> 期 间 被 中 断 〈 已 经 设置 了 锁 


Bi, LE 和 p 分 别 进行 临界 区 的 


lock1), 并且 开始 执行 。 


B p 将 设置 锁 lock2， 然 后 在 while 语句 等 待 lock! 的 释放 。 

u 最 后 ， 时 钟 中 断 将 会 引起 重新 执行 p, RA pi 完成 < intermediate conputation> 的 运行 ， 而 在 检 
测 lock2 的 while 语句 中 被 阻塞 (在 更 新 描述 表 之 前 ) 。 

然而 ， 现 在 两 个 线程 都 将 死 锁 ， 两 个 线程 都 不 能 继续 进行 ， 因 为 每 一 _ 个 线程 都 持 有 另 一 一 个 线程 需要 的 


锁 。 这 就 在 pi 和 po 之 间 形 成 了 死 锁 ， 其 中 的 资源 是 抽象 的 “资源 ” 


一 一 锁 。 在 对 同步 方法 的 继续 研究 


中 ,我 们 必须 要 预防 死 锁 。 死 锁 可 以 在 多 个 进程 竞争 资源 的 情况 下 发 生 (不 仅仅 是 临界 区 这 种 情况 )。 我 


们 将 在 第 10 章 研究 更 一 般 的 情况 。 
8.1.3 资源 共享 


因为 两 个 进程 共享 如 balance 变量 而 导致 了 软件 临界 区 问题 的 存在 。 解 决 方案 对 两 个 进程 进行 了 同 
步 ， 使 得 它们 中 的 任何 一 个 在 给 定 的 时 间 可 以 对 共享 变量 进行 访问 。 交 通 示例 暗示 着 对 任何 种 类 共享 资源 


(如 上 述 的 两 个 街道 的 十 字 路 口 ) 的 复 用 ， 


临界 区 问题 都 会 发 生 。 


在 并 发 应 用 中 的 进程 /线程 需要 共享 一 些 诸如 变量 、 文 件 、 缓 冲 和 设备 之 类 的 资源 。 例 如 ， 如 果 应 用 
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要 管理 公司 的 存货 ， 一 个 进程 可 以 用 来 处 理 存货 中 产品 的 发 送 ， 另 一 个 进程 可 以 在 存货 量 比较 少时 处 理 货 
物 的 订购 。 这 意味 着 发 送 进程 和 订购 进程 需要 访问 描述 当前 存货 的 公共 信息 〈 即 使 它 仅仅 是 一 个 文件 )。 

这 些 资 源 大 多 是 时 分 复 用 、 可 重用 的 资源 。 当 一 个 进程 或 线程 获得 资源 的 控制 时 ， 对 同一 进程 内 的 线 
程 或 其 他 进程 来 说 ， 它 的 访问 是 互 斥 的 。 也 就 是 说 ， 当 一 个 资源 被 分 配给 一 个 进程 或 线程 时 ， 其 他 进程 或 
线程 不 可 以 使 用 这 个 资源 。 你 可 以 将 共享 变量 当 作 是 具有 互 斥 访问 特性 的 共享 资源 。 临 界 区 问题 是 互 斥 问 
题 的 一 个 特例 ， 互 斥 问 题 也 是 时 分 复 用 共享 资源 ， 使 得 在 某 一 时 刻 只 能 有 一 个 进程 或 线程 使 用 资源 。 在 临 
界 区 问题 的 变种 中 ， 抽 象 资源 也 是 临界 区 : 进程 不 能 同时 进入 它们 的 临界 区 。 

同步 问题 的 解决 方法 取决 于 在 一 台 机 器 上 执行 的 并 发 进程 。 在 enter () /exit () 解决 方案 中 ， 通 过 
屏蔽 中 断 阻 止 某 个 进程 的 执行 是 可 行 的 。 在 所 有 其 他 的 解决 方案 中 ， 我 们 都 依赖 于 共享 内 存 (shared mem- 
ory) 的 存在 。 例 如 ， 有 一 个 可 被 并 发 进程 测试 和 设置 的 lock 变量 。 正 如 在 第 6 章 中 所 看 到 的 ， 进 程 地 址 
空间 划分 妨碍 了 主 存储 器 共享 。 在 使 用 共享 变量 的 同步 策略 中 ， 操 作 系统 必须 提供 一 些 机 制 来 克服 地 址 空 
间 障 碍 ， 使 得 不 同 的 进程 可 以 访问 共享 变量 。 


8.2 经 典 解决 办 法 的 改进 


线程 间 (也 可 能 在 不 同 的 进程 间 ) 相互 作用 导致 了 对 同步 的 需求 ， 而 在 同步 的 过 程 中 又 引起 了 临界 区 和 死 
锁 问 题 。 在 第 2 章 中 ，FORK()、JOMN () AIQUIT () 是 作为 创建 和 结束 进程 的 机 制 而 介绍 的 ， 它 们 同样 也 可 以 
用 于 并 发 计算 中 的 同步 。 在 图 8-12a 中 ， 表 示 了 计算 中 如 何 使 用 FORK (), JOIN () AUT O 来 实现 并 发 。 初 
始 进程 〈 或 它 的 子 进程 ) 通过 执行 FORK () 操作 ， 创 建 一 个 进程 A， 然 后 进程 A 又 执行 FORK () 创建 了 进程 B， 
然后 A 和 B 执 行 JON() 操作 ， 只 保留 一 个 进程 在 运行 ， 比 如 说 B; 接 下 来 进程 B 又 执行 FORK O 创建 了 进程 
C, WE BACHREIN, WALH oN O 操作 ， 只 保留 一 个 进程 在 运行 ， 再 不 妨 说 B， 最 后 进程 B 执 行 
QT O 操作 来 结束 计算 。 在 这 个 例子 中 ， 应 用 框架 中 有 三 个 明确 的 进程 (忽略 初始 进程 )。 

(初始 进程 ) (初始 进程 ) 


FORK 


Synchronize 





FORK (等 待 ) Synchronize 
JOIN JOIN 
=m QUIT mm UIT 
a) 创建 /结束 b) 同步 


图 8-12 使 用 FORK ()、JoIN () 和 QUIT O 的 同步 
注 : 图 a) 表示 了 并 发 任务 的 实现 计算 ， 它 是 通过 反复 地 创建 /结束 进程 来 完成 的 。 图 b) 是 另 一 种 方法 ， 它 在 
某 些 进程 的 创建 和 结束 中 使 用 了 同步 算 子 。 


图 8-12b 表示 了 一 种 使 用 同步 算 子 的 替代 方法 (图 中 的 “Synchronize”)， 其 中 的 同步 算 子 类 似 于 前 面 所 介绍 
的 锁 机 制 。 由 初始 进程 直接 或 间接 创建 了 进程 A， 进 程 A 使 用 FORK () 创建 了 进程 B; 在 一 些 点 上 使 用 FORK () 
和 JOIN () 来 创建 和 结束 图 8-12a 中 的 进程 ， 两 个 进程 间 明确 地 同步 它们 的 操作 。 这 意味 着 任 一 个 进程 都 不 会 越 
过 某 个 点 ， 直 到 它们 都 到 达 各 自 的 同步 点 。 任 一 个 进程 都 不 会 通过 JOIN () RUT () 被 结束 ， 仅 仅 是 被 阻塞 ， 
直到 它们 都 到 达 各 自 的 同步 点 。 这 种 同步 与 间谍 电影 中 使 用 的 方法 相似 : 进程 A 和 进程 B 等待 ， 直 到 它们 都 到 
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达 执 行 中 的 某 个 点 (或 者 在 间谍 例子 中 ， 时 刻 为 5: 00)。 没 有 进程 使 用 JOIN () 或 WIT ()， 所 以 进程 都 不 终 
止 。 相 反 ， 当 第 一 个 进程 到 达 同 步 点 时 ， 进 程 会 挂 起 自己 直到 另 一 个 进程 到 达 同 步 点 。 在 图 中 ， 进 程 B 在 执行 
顺序 处 理 时 ， 进 程 A 在 等 待 。 然 后 进程 间 又 同步 并 继续 并 发 执行 。 当 所 有 的 工作 都 完成 后 ， 两 个 进程 执行 
JOIN (), 在 图 8-12b 中 ， 进 程 A 被 假定 是 最 后 一 个 执行 JON ()， 因 此 它 继 续 执行 ， 最 后 执行 IT O 结束 计算 。 
图 中 的 进程 也 可 以 是 线程 一 一 在 同一 进程 内 或 在 不 同 进 程 内 。 

图 8-12 中 所 示 的 两 种 方法 使 用 相同 数目 的 交 迭 操作 完成 相同 的 计算 。 哪 一 种 方法 更 可 取 呢 ? 随 着 
FORK ()、JOIN () 和 QIT () 的 引信， 操作 系统 设计 者 发 觉 ， 进 程 的 创建 和 结束 已 经 成 为 花费 很 大 的 操 
作 ， 因 为 它们 需要 相当 多 对 进程 描述 表 、 保 护 机 制 以 及 存储 管理 机 制 的 操作 。 然 而 ， 同 步 操 作 可 以 当 作 是 
一 种 消费 资源 上 的 操作 ， 如 利用 共享 的 布尔 变量 能 够 有 效 地 实现 同步 。 用 于 创建 或 结束 进程 的 时 间 ， 比 同 
步 高 出 3 个 或 更 多 的 数量 级 ， 所 以 在 当代 操作 系统 中 倾向 于 使 用 同步 机 制 实现 进程 创建 或 结束 操作 。 

在 8.1 节 中 ,已 经 介绍 了 如 何 可 能 通过 对 共享 变量 加 锁 而 实现 同步 的 基本 思想 。 但 示例 解决 方案 依赖 于 
特定 问题 的 语义 。 在 通用 的 机 制 中 ， 一 个 线程 可 能 被 阻塞 直到 某 些 以 前 定义 的 事件 在 另 一 个 线程 中 〈 可 能 在 
另 一 个 进程 中 ) 发 生 。 考 虑 图 1-8 中 所 引入 的 例子 ,在 图 8-13 中 重复 引用 ， 这 些 代码 段 的 意图 大 概 是 ， 到 
proc _ A 完成 对 变量 x 的 写 操 作 之 前 ，proc _B 不 应 该 执行 它 的 第 一 个 读 语句 ; 而 且 ， 每 次 循环 都 应 该 进行 同 
步 。 当 proc _B 开始 执行 时 ， 应 该 挂 起 操作 ， 直 到 proc APM write (x) 事件 发 生 。 这 是 一 个 临界 区 问题 的 
变种 ， 其 中 同步 可 以 保证 在 进程 proc _ A 和 proc _B 执 行 时 的 协同 ， 而 不 是 解决 对 临界 区 的 竞争 访问 。 


shared double x, y; /* Shared variables */ 
proc_A() { proc_B() { 
while(TRUE) { while(TRUE) { 
<compute Al>; read(x); /* Consume x */ 
write(x); /* Produce x */ <compute B1>; 


<compute A2>; write(y); /* Produce y */ 
read(y); /* Consume y */ <compute B2>; 
} 
} 








A813 ”并 发 进程 的 例子 
TE: 这 些 代码 段 表 示 了 两 个 不 同 并 发 进程 的 活动 。proc _A 写 共享 变量 x， 读 共享 变量 y。proc _B 读 x 并 写 yo 


实现 同步 策略 有 三 种 基本 的 方法 : 

e 只 使 用 用 户 模式 的 软件 算法 和 共享 变量 。 

里 如 图 8 5 所 示 ， 在 临界 区 边界 采用 中 断 的 屏蔽 和 开放 的 方法 ， 当 然 ， 这 种 方法 对 O 系统 有 可 能 影响 很 大 。 

m 在 硬件 和 操作 系统 中 ， 结 合 专门 的 机 制 支持 同步 ， 或 者 单独 在 硬件 或 操作 系统 中 实现 。Edsger Dijk- 
stra 首先 提出 这 种 方法 [Dijkstra, 1968] ， 并 作为 今天 的 解决 方案 的 基础 ， 它 依赖 于 操作 系统 所 实现 
的 信和 号 量 这 种 抽象 的 数据 类 型 。 

操作 系统 一 般 会 明确 支持 其 中 的 两 种 方法 ， 信 号 量 的 方法 (及 其 扩展 ) 要 比 软件 和 基于 中 断 的 方法 用 

得 更 多 一 些 。 


8.3 信号 量 : 现代 解决 方法 的 基础 


繁忙 的 交通 十 字 路 口 通过 增加 一 个 信号 量 一 一 交通 灯 (协调 公用 的 十 字 路 口 的 使 用 ) 来 解决 临界 区 问题 。 
在 软件 中 ,信号 量 是 一 个 操作 系统 抽象 数据 类 型 ， 它 执行 类 似 交 通 灯 的 操作 。 信 号 量 允 许 一 个 进程 (如 小 车 ) 
来 控制 共享 资源 ， 然 而 ， 另 一 个 进程 在 (如 公共 汽车 ) 等 候 着 资源 被 释放 。 在 讨论 信号 量 操作 的 基本 原理 之 前 ， 
我 们 先 来 考虑 一 下 对 信号 量 操作 的 一 些 假定 。 

解决 临界 区 问题 的 一 个 可 接受 方案 需要 满足 以 下 几 点 约束 : 

m 在 某 一 个 时 刻 ， 只 允许 一 个 进程 进入 相应 的 临界 区 执行 ( 互 斥 )。 

D 如 果 没 有 进程 已 经 进入 临界 区 ， 并 且 有 一 组 进程 都 想 进入 临界 区 操作 ， 哪 个 进程 被 选择 进入 临界 区 

应 该 由 这 组 进程 来 作出 决定 ， 而 不 是 由 外 部 的 代理 (如 仲裁 者 或 调度 程序 ) 决定 。 

时 一 旦 一 个 进程 试图 进入 临界 区 ， 如 果 没 有 其 他 的 进程 在 临界 区 ， 那 么 它 应 立即 进入 相应 的 临界 区 。 
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E 当 一 个 进程 请 求 进入 相应 的 临界 区 后 ， 在 它 进入 临界 区 之 前 ， 只 有 有 限 数目 的 其 他 进程 进入 它们 相 
应 的 临界 区 。 ” 
为 了 方便 进行 讨论 ， 下 面 通过 图 8-14 所 示 的 两 个 进程 框架 ， 着 重 突出 这 个 问题 的 其 他 重要 的 方面 。 
在 这 幅 图 及 随后 的 图 中 ， 常 用 到 下 面 的 语句 ，; 


fork(proc, N, argl, arg2,.…,argN ) 


它 表示 创建 了 一 个 单线 程 进程 ， 并 开始 在 它 自 己 的 地 址 空间 中 ,使 用 提供 的 N 个 参数 执行 pro (). < 
shared global declarations> 表 示 可 以 被 地 址 空间 中 所 有 进程 访问 的 共享 变量 。 (过程 和 共享 全 局 变量 被 
声明 的 顺序 并 没有 指定 ， 在 这 里 ， 变 量 是 在 过 程 之 后 被 声明 的 ， 但 是 我 们 经 常 在 过 程 之 前 声明 它们 。) 


Broc_0() { . proc_1() { 
while(TRUE) { while(TRUE) { 
<compute section>; <compute section>; 
<critical section>; <critical section>; 
} } 
} } 


<shared global declarations>; 
<initial processing>; 
fork(proc_0, 0); 

fork(proc_1, 0); 





图 8-14 ”进程 间 的 合作 
注 : 这 是 描述 多 个 进程 或 同一 进程 内 多 个 线程 的 格式 。 在 这 个 例子 中 ， 创 建 了 两 个 进程 ， 一 个 执行 proc _0 
()， 一 个 执行 proc _ 1 ()。 


对 图 中 软件 框架 的 执行 ， 有 下 面 一 些 假设 ; 

n 两 个 进程 /线程 中 对 公共 主 存单 元 的 读 写 操作 是 不 可 分 割 的 。 任 何 两 个 进程 同时 对 主 存单 元 的 读 写 
操作 ， 都 会 按 一 种 不 可 预知 的 串 行 次 序 进行 ， 但 两 个 进程 的 操作 不 会 是 同时 进行 的 。 

n 进程 /线程 间 没 有 假定 优先 级 ， 都 假定 是 同时 试图 进入 临界 区 。 

n 进程 /线程 间 的 相对 速率 是 不 可 知 的 ， 因 此 一 个 进程 /线程 不 能 依赖 速率 的 不 同 (或 相同 ) 来 实现 解 
决 方案 。 

m 如 图 8-14 所 示 ， 各 进程 /线程 假定 是 顺序 并 循环 执行 的 。 


8.3.1 操作 原理 


Edsger Dijkstra 因 发 明 信 和 号 量 而 著名 ， 信 和 号 量 作为 第 一 个 面向 软件 的 原 语 ， 用 来 实现 进程 同步 [Dijk- 
stra, 1968]. 30 多 年 前 Dijkstra 的 工作 奠定 了 现代 同步 技术 实现 的 基础 ， 至 今 仍 是 管理 一 组 合作 进程 的 可 
行 方法 。Dijkstra 的 经 典 论 文中 完成 了 以 下 工作 : 

加 提出 了 “顺序 进程 间 合 作 ” 的 思想 

n 解释 了 只 利用 传统 的 机 器 指令 (在 当时 的 条 件 下 ) 实现 同步 的 困难 

”时 并 以 原 语 作为 前 提 假 设 

m 证 明 可 以 很 好 地 实现 同步 

n 然后 给 出 了 一 些 示例 (本 书 的 例子 和 习题 就 有 很 多 取 自 该 文 ) 

在 Dijkstra 实现 信号 量 的 这 段 时 间 内 ， 经 典 〈 单 线程 ) 进程 用 来 表示 计算 ， 线 程 直到 20 年 之 后 才 出 现 。Di- 
jkstra 的 信号 量 是 根据 经 典 进 程 进行 描述 的 ， 但 是 它们 也 很 好 地 适用 于 线程 。 在 Dijkstra 最 初 的 论文 中 ，P 操作 就 
是 荷兰 语 中 的 “proberen” 一 词 的 缩写 ， 意 为 “检测 ”，V 操作 是 另 一 个 词 “verhogen” 的 缩写 ， 意 为 “ 增 量 ”。 

信号 量 * 是 一 个 非 负 整 数 变 量 ， 它 只 能 通过 一 对 不 可 分 割 的 访问 例 程 来 进行 修改 和 检测 : 

V(s):[s=s+1] 

P(s):[while(s= =0){wait]; s=s-1] 

方 括号 内 的 语句 ， 表 示 其 中 的 操作 是 不 可 分 割 的 〈indivisible) ， 或 是 原子 的 〈atomic) 操作 。 也 就 是 
说 , 在“ [” 和 “]” 间 的 所 有 语句 的 执行 就 像 单条 机 器 指令 的 执行 一 样 。 更 准确 地 说 ， 对 于 V 操作 的 执 
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行 ， 执 行 该 例 程 的 进程 在 结束 例 程 执 行 前 不 能 被 中 断 。 而 P 操 作 则 更 为 复杂 ， 如 果 s 大 于 0， 检测 后 并 减 
1 是 一 个 不 可 分 割 的 操作 ; 然而 ， 如 果 * 等 于 0， 进 行 P 操 作 的 进程 在 执行 到 while 循环 时 ， 会 执行 wait 
命令 而 被 阻塞 等 待 。 操 作 的 不 可 分 割 性 只 针对 信和 号 量 的 检测 ， 以 及 检测 后 对 执行 流向 的 控制 ， 而 不 需要 包 
含 进程 由 于 信号 量 等 于 0 而 等 待 的 动作 。 

了 操作 的 目的 是 ， 不 可 分 割地 检测 一 个 整数 变量 ， 如 果 变 量 不 是 正 数 ， 则 阻塞 调用 进程 ;而 V 操作 是 不 可 
分 割地 通知 一 个 被 阻塞 的 进程 恢复 执行 。 作 为 第 一 个 信号 量 例子 ， 让 我 们 重新 考虑 一 下 8.1 节 中 的 帐户 余额 计 
算 代码 ( 见 图 8-15)。 信 号 量 mutex (Dijkstra 最 初 论文 中 的 典型 命名 ， 意 为 “ 互 斥 ") 的 初始 值 为 1， 当 一 个 进程 
准备 进入 相应 的 临界 区 时 ， 它 首先 要 对 mutex 进行 下 操作。 第 一 个 进程 对 mztex 调用 了 操作 后 ， 第 二 个 进程 就 被 
阻塞 。 当 第 一 个 进程 对 mutex 调用 V 操作 后 ， 第 二 个 进程 在 获得 CPU 控制 后 能 够 继续 向 前 运行 。 

接 下 来 ,我 们 将 通过 利用 一 系列 信号 量 ， 在 两 个 进程 或 线程 之 间 解 决 临界 区 以 及 同步 操作 的 问题 ,研究 如 
何 使 用 信号 量 。 我 们 从 一 些 使 用 二 值 信 号 量 (binary semaphores) 的 简单 例子 人 手 ， 其 中 信号 量 的 值 只 能 取 0 和 
1。 信 号 量 通 常 被 初始 化 为 1， 但 也 不 总 是 这 样 (参见 下 面 的 示例 )。 





Proc 0() { proc_l() { 
/* Enter critical section */ /* Enter critical section */ 
P(mutex) ; P(mutex); 
balance = balance + amount; balance = balance - amount; 
/* Exit critical section */ /* Exit critical section */ 
V(mutex); V(mutex); 


} } 
semaphore mutex = 1; 
fork(proc_0, 0); 
fork(proc 1, 0); 
[E9 一 








图 8-15 ”对 共享 帐户 问题 使 用 信和 号 量 
注 : 信号 量 解决 方法 将 信号 量 mutex 初始 化 为 1。 每 个 进程 调用 P 操作 进入 临界 区 ， 当 它 离开 临界 区 时 调用 V 
操作 。 





示例 : 使 用 信号 量 . 

各 种 经 典 的 同步 问题 ， 有 的 在 Dijkstra 的 最 初 论文 中 被 提出 ， 有 的 出 现在 后 来 的 论文 和 教科 书 中 ， 这 
部 分 内 容 回顾 一 下 几 个 最 常见 的 问题 。 

基本 的 同步 问题 

你 已 经 看 到 了 如 何 使 用 信号 量 来 解决 帐户 余额 例子 中 的 临界 区 问题 。 在 图 8-13 中 ， 你 看 见 了 另 一 种 
同步 问题 ， 一 个 进程 通过 发 送信 号 来 与 另 一 个 进程 进行 协作 。 图 8-16 中 的 解决 方法 解释 了 如 何 使 用 信号 
量 来 解决 这 种 类 型 的 同步 。 在 这 个 例子 中 ， 要 注意 不 能 简单 地 将 P、V 操作 调用 代入 最 初 的 解答 中 ( 像 帐 
户 余额 例子 那样 ) ， 因 为 不 只 一 个 信号 量 用 于 实现 同步 。 在 这 种 情形 下 ， 信 和 号 量 用 于 在 进程 间 交 换 同 步 信 
号 ， 与 解决 严格 的 临界 区 问题 的 用 法 是 相反 的 。 

软件 /硬件 设备 间 的 相互 作用 

第 4 章 说 明了 在 设备 驱动 程序 和 控制 器 之 间 的 软 硬 件 接口 。 其 中 状态 寄存 器 中 的 busy 和 done 标志 位 
可 以 看 作 是 信号 量 的 硬件 实现 ， 因 为 它们 用 于 同步 软件 驱动 程序 和 硬件 控制 器 之 间 的 操作 。 图 8-17 是 表 
示 相 互 作用 的 代码 框架 。 

图 中 的 代码 段 仅 给 出 了 设备 驱动 程序 和 硬件 控制 器 行为 的 同步 ， 并 不 是 设备 驱动 程序 和 控制 器 的 全 部 实 
现 。( 例 如 ， 如 果 这 个 方案 是 实现 的 基础 ， 那 么 它 引 起 调用 进程 阻塞 一 -而 在 实际 实现 中 不 会 阻塞 调用 进 
程 。) 在 模型 中 ，busy 和 done 被 初始 化 为 0， 因 而 当 设备 控制 器 启动 时 ， 它 进入 循环 ， 通 过 检测 busy 标志 位 
的 值 ， 同 步 它 与 软件 进程 的 操作 ， 如 果 busy 为 0 一 一 初始 条 件 ， 那 么 控制 器 就 会 因 等 待 驱 动 程序 的 信号 而 阻 
塞 。 当 应 用 程序 需要 ID 操作 时 ， 就 调用 驱动 程序 ， 准 备 好 操作 后 (例如 ， 设 置 控制 器 寄存 器 、 设 备 状 态 表 
项 等 )， 它 通过 对 信号 量 busy 的 V 操作 而 通知 硬件 进程 ，V 操作 解锁 控制 器 ， 驱 动 程序 因 信号 量 done TBH 
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塞 。 当 设备 结束 操作 时 ， 控 制 器 通过 对 信和 号 量 done 的 V 操 作 ， 从 而 通知 驱动 程序 进程 继续 运行 。 


proc_A() { proc_B() { 
while(TRUE) { while(TRUE) { 
<compute Al>; /* Wait for proc_A signal */ 
write(x); /* Produce x */ P(sl); 
V(sl); /* Signal proc_B */ read(x); /* Consume x */ 
<compute A2>; . <compute B1>; 
/* Wait for proc_B signal */ write(y); /* Produce y */ 


P(s2); V(s2); /* Signal proc A */ 
read(y); /* Consume y */ <compute B2>; 
} 
} 
semaphore s1 
semaphore s2 
fork(proc_0, 
fork(proc_1, 








图 8-16 使 用 信号 量 同步 两 个 进程 
YE: proc_A 和 proc _B 进程 需要 协作 它们 的 活动 ， 使 得 在 proc _ A 对 x 进行 了 写 操作 之 后 ，proc _B 才 能 对 x 
进行 读 取 。 相 反 地 ， 直 到 proc _B 对 Y 进 行 了 写 操作 后 ，proc _& 才 能 对 Y 进 行 读 取 。proc _& 使 用 信号 
量 sl 发 信号 给 proc _ B，proc _B 使 用 s2 发 信号 给 proc _ Ao 


/* Map the hardware flags to shared semaphores */ 
semaphore busy = 0, done = 0; 
driver() { /* Synchronization behavior of the driver */ 
<preparation for device operation>; 
Vibusy); /* Start the device */ 
P(done); /* Wait for the device to complete */ 
<complete the operation>; 
} 


controller() { /* Controller’s hardware loop */ 
while(TRUE) { 
P(busy); /* Wait for a start signal */ 
<perform the operation>; 
vi(done); /* Tell driver that hardware has completed */ 
} 
} 





图 8-17 驱动 程序 与 控制 器 间 的 接口 行为 
WŒ: busy 和 done 硬件 标志 位 的 使 用 和 信号 量 一 样 。 驱 动 程序 通过 设置 busy 来 与 控制 器 进行 协作 ， 控 制 器 使 用 
done 标志 来 与 驱动 程序 同步 其 状态 。 


有 限 缓冲 区 (生产 者 一 消费 者 ) 问题 

有 限 缓冲 区 问题 常常 发 生 在 并 发 软件 中 ， 在 图 5-11 中 ， 我 们 看 到 了 “饮用 水 公司 ”例子 是 如 何 使 用 
缓冲 的 。Dijkstra 使 用 这 个 问题 来 示范 了 信号 量 的 不 同 使 用 方法 [Dijkstra，1968]。 假 设 系统 中 包含 两 个 单 
RE (BR) 进程 ， 一 个 进程 生产 消息 〈 生 产 者 进程 )， 另 一 个 进程 使 用 消息 〈 消 费 者 进程 )。 两 个 进程 间 
的 通信 按 如 下 方式 实现 ， 让 生产 者 从 一 个 空 缓冲 池 中 获得 一 个 空 缓冲 ， 填 人 消息 ， 并 将 它 放 人 一 个 满 缓冲 
池 ; 消费 者 通过 从 满 缓冲 池 中 取出 一 个 缓冲 ， 把 消息 从 缓冲 中 拷贝 出 来 ， 然 后 将 缓冲 放 人 空 缓冲 池 中 ， 以 
循环 使 用 。 生 产 者 和 消费 者 使 用 固定 的 、 有 限 数目 的 N 个 缓冲 在 它们 之 间 来 传送 任意 数目 的 消息 。 在 解 
决 方案 中 ， 利 用 有 限 的 缓冲 区 也 可 以 简单 地 保证 生产 者 与 消费 者 的 同步 。 

图 8-18 是 一 个 关于 生产 者 与 消费 者 进程 的 程序 框架 ， 其 中 empty 和 full 信号 量 表示 了 信和 号 量 的 一 种 
新 类 型 ， 称 为 通用 信号 量 (也 常 称 为 计数 信号 量 ) 。 二 值 信号 量 中 只 能 取 0 和 1 两 个 值 ， 计 数 信号 量 取 值 
可 为 0 到 N， 代 表 了 N 个 缓冲 问题 。 在 解决 方案 中 ,计数 信号 量 有 双重 用 途 ， 它 们 分 别 保存 着 空 缓冲 和 
满 缓冲 的 数目 ， 同 时 也 用 于 同步 操作 。 当 没有 空 缓冲 时 ， 就 阻塞 生产 者 ， 而 当 没有 满 缓冲 时 ， 就 阻塞 消 
RF. 
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producer() { 

bufType *next, *here; 

while(TRUE)}) { 
produceItem(next); 

/*Claim an empty buffer */ 
P(empty)? 
/* Manipulate the pool */ 
P(mutex); 
here = obtain(empty); 
Vi(mutex); 
copyBuffer(next, here); 
/* Manipulate the pool */ 


consumer({) { 


bufType *next, *here; 

while(TRUE) { 

/* Claim a full buffer */ 
P(full); 

/* Manipulate the pool */ 
P(mutex); 

here = obtain(full); 

V(mutex) ; 
copyBuffer(here, next); 

/* Manipulate the pool */ 
P(mutex); 





P(mutex); release(here, emptyPool); 
release(here, fullPool); V(mutex); 
V(mutex); /* Signal an empty buffer */ 
/* Signal a full buffer */ V(empty); 
V(full); consumeItem( next); 
} 
} } 
semaphore mutex = 1; 


semaphore full = 0; 
semaphore empty = N; 
bufType buffer[N]; 
fork(producer, 0); 
fork(consumer, 0); 











图 8-18 ee 
HE: 这 个 解决 方案 使 用 了 三 个 信号 量 : mutex 是 一 个 二 值 信号 量 ，full 和 empty 是 通用 信号 量 ( 取 值 为 0 到 
NY). ater RIE Sa a aah ste EINIR . 生产 者 /消费 者 进程 使 用 两 个 通用 信和 号 量 来 告诉 另 
一 个 进程 有 可 用 的 满 / 空 缓冲 。 


缓冲 区 是 逻辑 上 分 成 N 部 分 的 一 个 连续 的 主 存 块 ， 每 个 缓冲 必须 包含 有 用 于 链接 其 他 相关 的 空 缓 冲 
或 满 缓冲 的 空间 ， 以 及 存放 本 身 数 据 的 空间 。 由 于 生产 者 与 消费 者 都 操作 这 些 链 ， 因 而 操作 缓冲 池 的 代码 
部 分 必须 要 作为 临界 区 ， 可 使 用 信和 号 量 mutex 来 保护 对 两 个 缓冲 池 的 访问 ， 从 而 在 一 个 时 刻 只 有 一 个 进程 
取出 或 放 人 缓冲 。V 操作 通知 释放 缓冲 回 空 缓冲 池 或 满 缓 冲 池 中 。 

mutex 信和 号 量 用 来 保护 操作 缓冲 的 临界 区 〈 如 链表 插入/ 删除 操作 )。 如 果 没 有 空 缓 冲 ，P (empty) 操 
作 会 阻塞 生产 者 。 相 似 地 ， 如 果 没 有 满 缓冲 ，P (full) 操作 会 阻塞 消费 者 。 

reader-writer 问题 

Courtois, Heymans 和 Parnas [ 1971] 提出 了 另 一 个 有 趣 的 同步 问题 ， 称 为 reader-writer 问题 。 这 个 问 
题 是 在 经 典 的 单线 程 进 程 中 提出 来 的 ， 它 的 解决 方法 同样 也 适用 于 多 线程 计算 。 假 设 一 种 资源 在 两 种 明确 
不 同 的 进程 间 共 享 : reader 和 writer。 一 个 reader 进程 可 以 和 其 他 reader 进程 一 起 共享 资源 ， 但 不 能 和 任 一 
个 writer 进程 共享 。 只 要 writer 进程 请 求 对 资源 的 访问 ， 那 么 就 必须 独占 资源 进行 访问 。 

这 种 情形 类 似 于 在 一 组 进程 之 间 共 享 一 个 文件 ( 见 图 8-19)， 如 果 一 个 进程 只 想 要 读 文件 ， 那 么 它 可 
以 和 其 他 只 读 文件 的 进程 共享 文件 ; 如 果 进 程 要 对 文件 进行 修改 操作 ， 那 么 当 进程 写 文件 时 ， 就 不 允许 任 
何 进 程 访问 文件 。 

有 几 种 方案 可 以 用 来 实现 管理 共享 的 资源 。 例 如 ， 只 要 一 个 reader 持 有 资源 , 并 且 有 新 的 reader 到 
达 ， 那 么 任 一 个 writer 都 必须 等 待 资源 变 成 可 用 。 这 种 方案 的 实现 如 图 8-20 所 示 。 其 中 ， 第 一 个 要 访问 共 
享 资源 的 reader 必须 与 其 他 的 writer 竞争 ， 只 要 reader 获得 共享 资源 ， 在 资源 没有 释放 之 前 到 达 的 reader 
就 能 够 直接 进入 临界 区 访问 。reader 通过 变量 readCount 记录 着 临界 区 中 的 进程 数目 ， 该 变量 也 上 只 能 作为 
临界 区 进行 更 新 和 检测 。 只 有 第 一 个 reader 执行 ( writeBlock ) 操作 ， 后 续 reader 就 不 用 执行 该 操作 了 ， 
而 每 个 writer 则 都 要 执行 该 操作 ， 因 为 每 个 write 必须 与 第 一 个 reader 竞争 资源 。 类 似 地 ， 最 后 一 个 read- 
er 必须 代表 所 有 访问 过 共享 资源 的 reader， 执 行 V 操作 来 让 出 临界 区 。 
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图 8-19 reader 与 writer 问题 
注 : reader 和 writer 竞争 共享 资源 (图 中 对 卡通 书 的 访问 )，reader 可 以 共享 资源 ， 但 是 每 个 writer 对 资源 有 独 


占 性 控制 。 


reader() { writer()( { 
while(TRUE) { while(TRUE) { 
<other computing>; <other computing>; 
P(mutex); P(writeBlock) ; 
readCount = readCount+1; /* Critical section */ 
if (readCount == 1) access (resource); 
P(writeBlock) ; V(writeBlock) ; 
v(mutex); } 
/* Critical section */ } 
access (resource); 
P(mutex) ; 
readCount = readCount-1; 
if(readCount == 0) 
V(writeBlock) ; 
V(mutex); 
} 
} 
resourceType *resource; 
int readCount = 0; 
semaphore mutex = 1; 
semaphore writeBlock = 1; 
/* Start the readers and writers */ 
fork(reader, 0); /* Could be many */ 
fork(writer, 0); /* Could be many */ 





图 8-20 协同 reader 与 writer 的 第 一 种 方案 
YE: 在 这 个 方案 中 ，reader 的 优先 级 比 writer 高 。 这 是 因为 一 旦 reader 得 到 对 共享 资源 的 控制 ， 随 后 的 reader 流 
可 能 会 阻塞 writer 一 个 无 限 长 的 时 间 。 
从 上 述 的 实现 方案 中 可 以 容易 地 看 出 虽然 实现 了 所 描述 的 策略 ， 但 可 能 没有 产生 预期 的 结果 ，reader 
能 够 长 期 占据 着 资源 ， 因 此 writer 从 不 会 有 机 会 访问 。 在 实际 系统 中 ， 这 种 情形 类 似 于 一 个 更 新 文件 的 操 


作 ， 必 须 等 待 所 有 的 读 文件 操作 结束 后 才能 进行 。 
在 大 多 数 情形 中 ， 你 可 能 喜欢 尽 可 能 早 地 更 新 文件 ， 这 就 导致 了 另 一 种 偏向 writer 的 可 选 方案 。 即 当 
一 个 writer 进程 请 求 访问 共享 资源 时 ， 任 一 随后 到 达 的 reader 进程 必须 等 待 ， 让 writer 获得 访问 共享 资源 ， 


然后 释放 资源 。 
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图 8-21 中 给 出 了 实现 第 二 种 方案 的 算法 ， 其 中 允许 reader 流 进 入 临界 区 ， 直 到 一 个 writer 到 达 为 止 。 
writer 然后 获得 比 随后 的 reader 都 要 高 的 优先 级 , 已 经 进入 访问 共享 资源 的 reader 进程 除外 。 当 第 一 个 
writer 到 达 时 ， 它 将 获得 信和 号 量 readBlock， 然 后 被 信号 量 writeBlock 阻塞 ,等待 临界 区 中 所 有 的 reader 离 
F; 下 一 个 到 达 的 reader 将 获得 信号 量 writePending， 然 后 被 信号 量 readBlock 阻塞 。 假 设 此 时 到 达 了 另 
一 个 writer， 假 定 第 一 个 write 已 经 进入 临界 区 ， 那 么 它 将 会 被 信和 号 量 writeBlock 阻塞 。 如 果 又 到 达 了 第 
二 个 reader， 它 将 被 信号 量 writePending 阻塞 。 现 在 当 第 一 个 reader 结束 离开 临界 区 时 ， 由 于 随后 的 writ- 
er 的 优先 级 都 要 高 于 所 有 reader 的 优先 级 ， 且 它们 都 被 信号 量 writeBlock 阻塞 ， 而 没有 reader 被 该 信号 量 
阻塞 ， 所 以 writer 将 会 占据 资源 。 当 所 有 的 writer 结束 后 reader 才 人 允许 使 用 资源 。 

这 个 例子 突出 了 一 个 新 的 问题 ， 信 号 量 提供 了 将 硬件 级 同步 到 软件 机 制 的 抽象 ， 可 用 于 解决 一 些 简单 的 问 
题 ， 但 在 更 为 复杂 的 reader-writer 问题 中 实现 起 来 就 很 困难 。 且 我 们 如 何 知 道 一 种 解决 方案 〈 比 如 说 第 二 种 read- 
er-writer 解决 方案 ) 是 正确 的 呢 ? 要 解决 这 个 问题 有 两 种 选择 ; - 

n 创建 一 种 高 层面 上 的 抽象 (在 第 9 章 会 学 到 )。 

n 使 用 信号 量 的 算法 正确 性 还 是 需要 证 明 ， 但 信号 量 的 使 用 可 以 让 我 们 编写 出 更 为 复杂 的 同步 互 斥 











情况 。 
reader() { writer() { 
while (TRUE) { while(TRUE) { 
<other computing>; <other computing>; 
P(writePending); P(mutex2); 
P(readBlock); writeCount=writeCount+1; 
P(mutexl); if(writeCount==1) 
readCount = readCount+1; P(readBlock); 
if(readCount == 1) V(mutex2); 
P(writeBlock); P(writeBlock) ; 
V(mutexl1); access (resource); 
V(readBlock); V(writeBlock); 
V(writePending); P(mutex2); 
access(resource); writeCount=writeCount-1; 
P(mutexl); if (writeCount==0) 
readCount = readCount-1; +  V(readBlock); 
if(readcount == 0) . V(mutex2); 
V(writeBlock); } 
V({mutexl); } 
} 
} 
resourceType *resource; 
int readCount = 0, writeCount = 0; 
semaphore mutexl = 1, mutex2 = 1; 
semaphore readBlock = 1; 
semaphore writePending = 1; 
semaphore writeBlock = 1 
/* Start the readers and writers */ 
fork(reader, 0); /* Could be many */ 
fork(writer, 0); /* Could be many */ 


图 8-21 协同 reader 与 writer 的 第 二 种 方案 
TE: 第 二 个 方案 中 writer 的 优先 级 比较 高 。 即 使 有 reader 正在 使 用 共享 资源 ， 当 一 个 writer 到 达 时 ， 它 能 在 
任何 其 他 的 reader 之 前 获得 对 资源 的 访问 权 。 
E 





8.3.2 应 用 中 要 考虑 的 因素 


有 一 些 与 信号 量 实现 有 关 的 重要 事项 需要 考虑 。 这 节 的 剩余 部 分 将 讨论 如 何 实现 信号 量 ， 如 何 避 免 对 
信号 量 的 忙 等 待 ， 以 及 如 何 将 信号 量 看 作 一 种 资源 。 同 时 也 考虑 与 V 操作 实现 有 关 的 一 个 重要 细节 :主动 
与 被 动 行为 。 
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实现 信号 量 

图 8-8 中 显示 了 如 何 屏 项 中 断 去 操作 一 个 锁 变量 ， 但 并 不 在 整个 临界 区 使 用 屏 荐 中断 (如 图 8-5 所 采 
用 的 )。 信 号 量 的 实现 也 采用 了 屏蔽 中 断 ， 但 是 它 的 屏蔽 中 断 时 间 很 得， 就 在 P、YV 函数 中 〈 见 图 8-22)。 
图 中 使 用 C++ 中 的 描述 方法 ， 说 明 一 个 信号 量 类 ， 表 明 信 和 号 量 是 一 种 抽象 的 数据 类 型 ， 其 中 包括 私有 实 
现 和 公共 接口 部 分 。 由 于 P、V 操作 是 作为 操作 系统 的 功能 来 实现 的 ， 所 以 方案 的 模型 中 假定 ， 用 户 进程 
可 以 有 一 个 指针 引用 信和 号 量 ， 意 味 着 P (s) 信号 量 函数 可 被 如 下 的 代码 段 调 用 : 


semaphore *s; 

s = sys_getSemaphore(); 

s->P(); - 
当 线 程 在 某 个 信号 量 上 阻塞 时 ， 大 部 分 时 间 都 是 使 能 中 断 的 ; 仅 在 对 信号 量 的 值 进行 操作 时 才 屏 项 中 断 。 
这 有 两 个 重要 的 作用 : 

E 对 1O 系统 的 影响 最 小 。 

a 当 一 个 进程 持 有 信号 量 时 ， 它 只 阻止 其 他 竞争 有 关 的 临界 区 的 进程 运行 ， 而 所 有 其 他 不 参与 竞争 进 

人 临界 区 的 进程 不 受 影响 。 


class semaphore { 
int value; 
public: 
semaphore(int v = 1) { 
// allocate space for the semaphore object in the OS 
value = v 
}; 
P() { 
disableInterrupts(); 
// Loop until value is positive 
while (value == 0) { 
enableInterrupts(); // Let interrupts occur 





disableInterrupts({); // Disable them again 
} 
value--; 
enableInterrupts({); 


}; 

vo) f 
disableInterrupts(); 
valuett; 
enableInterrupts(); 
yi 

} 





图 8-22 ”使 用 中 断 实现 信号 量 
注 : P 操作 会 使 得 调用 进程 进入 等 待 ， 为 了 最 小 化 对 系统 其 余部 分 的 影响 ， 每 次 经 过 循环 时 使 能 中 断 。 


如 果 硬 件 提 供 几 个 特殊 的 支持 ， 那 么 不 用 屏蔽 中 断 就 可 以 实现 信号 量 。 在 一 个 基于 中 断 的 设计 中 ， 操 
作 系 统 能 为 每 个 信号 量 创建 抽象 资源 。 当 它们 执行 了 操作 时 ， 会 使 用 6.7 节 中 描述 的 资源 管理 器 来 阻塞 进 
程 ， 这 与 它们 完成 对 一 个 传统 资源 的 请 求 操 作 一 样 。 问 题 是 信号 量 资源 管理 器 如 何在 不 使 用 中 断 的 情况 
下 ， 能 够 正确 实现 对 信和 号 量 的 同时 访问 。 

TS (test-and-set， 检 测 并 设置 ) 指令 是 现代 硬件 中 一 种 完成 P、V 操作 效果 的 主要 方法 。TS 是 一 条 简单 
的 指令 ， 它 能 轻易 在 一 个 机 器 指令 系统 中 实现 ， 但 它 可 以 使 信号 量 的 实现 变 得 相对 简单 和 有 效 。TS 指令 : 

TS R3,m //Test-and-set of location m 
使 得 主 存 位 置 mx 中 的 内 容 被 装 人 R3 寄存 器 中 (设置 条 件 码 寄存 器 来 反映 R 中 的 数据 值 ) ， 并 且 将 值 TRUE 
写 回 主 存 位 置 mx。TS 最 基本 的 一 个 方面 是 它 是 一 条 单机 器 指令 。 图 8-23a 显示 了 内 存 位 置 m, FARR 
和 开始 执行 TS 之 前 R3 的 条 件 码 寄存 器 ， 图 8-23b 显示 了 执行 这 条 指令 之 后 的 结果 。 

假设 一 个 机 器 指令 系统 中 包括 TS 指令 ， 通 过 操作 系统 提供 的 TS (m) 函数 ， 可 以 对 主 存 位 置 m 进行 
相应 的 操作 。 那 么 临界 区 问题 可 以 如 图 8-24a 所 示 来 解决 ，b) 部 分 是 使 用 P、V 操作 的 相应 代码 。 当 一 个 
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进程 将 主 存 位 置 m 的 最 初 值 装 人 一 个 可 检测 的 寄存 器 后 ， 如 被 中 断 ， 中 断 进程 将 会 检查 值 的 情况 ， 肯 定 
是 TRUE， 因 此 会 被 阻塞 在 while 循环 中 。 在 进程 实际 进 和 人 临界 区 之 前 ， 如 发 生 了 中 断 ， 也 不 会 引起 任何 问 
题 。 赋 值 语句 中 ， 对 变量 * 的 重新 设置 是 原子 操作 ， 因 为 通常 情况 下 它 是 用 一 条 机 器 指令 来 完成 的 。 


数据 寄存 器 . COR FF RE 


ef. | L-A 


[aa | 


F. 
EF 


a) 执行 TS 前 


数据 寄存 器 CC 寄存 器 


o [ease] 


= 
主 存 


b) 执行 TS 后 


图 8-23 TS 指令 
TE: “ISR ,m” 指 令 将 m 位 置 的 数据 装 和 人 寄存 器 R3, 测试 它 的 值 ,然后 将 TRUE 写 回 主 存 位 置 m 处 。 


boolean s = FALSE; 


while(TS(s)) ; 


<critical section>; 
s = FALSE; 





semaphore s = 1; 





P(S); 
<critical section>; 
vs); 












a) 


b) 


图 8-24 使 用 TS 指令 实现 二 值 信号 量 
TE: P 操 作 可 通过 将 TS 指令 说 人 到 读 取 条 件 码 寄存 器 的 while 循环 中 来 实现 。V 操作 可 通过 带 有 立即 数 的 store 


指令 来 实现 。 


TS 指令 的 一 个 不 足 之 处 就 是 只 能 代替 了 操作 用 于 二 值 信号 量 的 情况 ， 其 中 的 信号 量 只 能 取 0 和 1 两 个 
值 。 它 可 以 用 来 实现 通用 信和 号 量 吗 ? 因为 计数 信号 量 可 以 取 非 负 值 ， 二 值 信号 量 的 TRUE 和 FALSE 值 不 能 表 


示 大 于 1 的 整数 。 图 8-25 是 实现 通用 信和 号 量 的 算法 。 








struct semaphore { 
int value = <initial value>; 
boolean mutex = FALSE; 
boolean hold = TRUE; 
ye 
shared struct semaphore s; 
P(struct semaphore s) { 
while(TS(s.mutex)) ; 
s.value = s.value - 1; 
if(s.value < 0) { 
s.mutex = FALSE; 
while(TS(s.hold)) ; 
} 
else 
s.mutex = FALSE; 
} 





V(struct semaphore s) { 
while(TS(s.mutex)) ; 
s.value = s.value + 1; 
if(s.value <= 0) { 

while(is.hold) ; 
s.hold = FALSE; 
} 
S.mutex = FALSE; 
} 








图 8-25 ”使 用 TS 指令 实现 通用 信号 量 
注 : 这 个 算法 解释 了 如 何 使 用 TS 指令 来 实现 通用 信号 量 。 思 想 就 是 使 用 二 值 信号 量 s.mutex 来 保护 临界 区 ， 使 


用 了 一 个 整 型 数 来 表示 信号 量 值 。 
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在 此 图 中 ，s.mutex 用 于 实现 互 斥 ，s.value 表示 通用 信和 号 量 的 值 。 当 一 个 进程 对 s. value 进行 操作 
时 ， 布 尔 变量 s.hold 被 用 来 实现 信号 量 对 进程 的 阻塞 ， 因 而 任 一 等 待 信号 量 的 进程 将 会 在 下 面 P 过 程 中 
的 语句 处 等 待 : 

while (TS(s.hold)); 


44 s.hold 返回 一 个 FALSE 值 时 (在 V 操作 中 ， 当 在 等 待 信号 量 s 的 队列 中 检测 到 进程 时 ， 会 设置 FALSE 
值 )， 调 用 P 操作 的 进程 将 会 在 外 层 while 循环 中 的 Ts 指令 处 被 阻塞 。 同样 注 意 ， 一 个 执行 P 操作 的 进 
程 ， 在 它 开始 等 待 .hold 的 值 之 前 ,将 会 释放 与 操作 s.value 项 相关 的 临界 区 。 

另 一 个 语句 也 值得 仔细 考虑 。 在 V 操作 中 ， 下 面 的 语句 被 请 求 执行 : 

while (! s.hold); 
之 所 以 引信 该 语句 是 因为 会 出 现 一 种 竞争 情形 ， 其 中 一 个 进程 认为 它 在 P 操作 中 被 阻塞 ， 而 在 V 操作 过 
程 中 s.hold 已 经 被 置 成 TRUE 的 情况 。 当 在 任 一 进程 执行 P 操 作 之 前 ， 某 个 进程 进行 连续 V 操作 时 ， 就 会 
发 生 这 种 情形 。 如 果 没 有 while 语 句 ， 某 个 V 操作 的 结果 会 丢失 。 

忙 等 待 

忙 等 待 情形 指 的 是 反复 地 执行 循环 来 测试 变量 ， 直 到 变量 改变 值 为 止 ( 像 图 8.22 中 的 while 循环 )。 在 学 习 
软件 如 何 控制 设备 时 〈 见 4.4 节 )， 我 们 首先 遇 到 了 人 忙 等 待 情形 。 使 用 中 断 〈 图 8-22) REA SHES (图 8.24 
和 图 8-25) 的 实现 与 图 8-5 所 使 用 的 技术 相 比 ， 前 者 极 大 地 减少 了 忙 等 待 时 间 数 ， 但 是 它 仍然 很 浪费 CPU 时 间 。 

假定 图 8-25 所 示 的 实现 用 在 多 道 程序 设计 的 单 处 理 器 系统 中 ， 那 么 只 要 一 个 进程 调度 运行 时 被 信号 
量 阻 塞 ， 它 就 会 不 停 地 执行 下 面 的 语句 ; 

while (TS(s.hold)); 


直到 计时 器 中 断 激活 调度 程序 ， 移 走 被 信号 量 操作 阻塞 的 进程 ， 从 而 让 另 一 个 进程 使 用 处 理 器 。 当 被 阻塞 
进程 获得 下 一 个 时 间 片 ， 如 果 s.hold 值 还 是 TRUE， 那 么 会 重新 忙 等 待 。 结 果 是 被 阻塞 的 进程 减 慢 了 那些 
最 后 将 执行 V 操作 的 进程 的 运行 ， 只 有 其 他 进程 执行 了 V 操作 ， 才 能 允许 第 一 个 阻塞 的 进程 向 前 运行 。 
鉴于 此 ， 被 阻塞 进程 应 该 向 操作 系统 表明 ， 在 这 个 时 刻 内 不 能 做 任何 有 用 的 事情 ， 这 可 以 通过 执行 相当 于 
Yield 指令 功能 ( 见 第 7 章 ) 的 操作 来 实现 。 每 次 进程 检查 到 它 被 阻塞 后 ， 可 能 会 简单 地 把 处 理 器 让 给 另 
一 个 进程 使 用 ， 让 处 理 器 完成 有 用 的 工作 。 这 种 方法 将 把 忙 等 待 语句 改 为 如 下 的 形式 ; 

while (TS(s.hold)) 

yield( * , scheduler); 

以 消除 由 于 被 阻塞 进程 忙 等 待 而 造成 的 处 理 器 消耗 现象 。 

主动 和 被 动 信号 最 的 实现 

信和 号 量 可 以 被 认为 是 一 种 消费 资源 。 如 果 一 个 进程 /线程 请 求 一 个 正 的 信号 量 值 ， 但 是 信号 量 值 为 0 
时 ， 它 就 会 被 阻塞 。 通 过 对 一 个 0 值 的 信号 量 的 P 操作 ， 一 个 进程 会 从 运行 状态 转 人 阻塞 状态 ， 从 这 个 角 
度 来 说 ，P 操作 是 一 个 资源 请 求 操作 。 而 当 进 程 检测 到 信号 量 为 正 值 时 ， 它 会 从 阻塞 状态 进入 运行 状态 。 
当 另 一 个 进程 通过 V 操作 释放 一 个 资源 时 ， 资 源 分 配器 会 把 相应 的 阻塞 进程 转 人 就 绪 状态 。 处 于 就 绪 状 态 
并 不 意味 着 进程 已 在 CPU 中 执行 ， 但 至 少 它 处 在 就 绪 队 列 中 了 。 这 种 操作 模式 引起 了 另 一 一 种 实现 复杂 性 ， 
即 如 果 一 个 进程 完成 了 一 个 V 操作 ,是否 操作 系统 应 该 “保证 ”等 待 的 进程 就 立即 察觉 这 个 活动 ? 

图 8-15 描述 了 帐户 取款 和 帐户 存款 进程 使 用 信和 号 量 mutex 来 同步 对 balance 变量 的 访问 。 假 定 proc _0 
得 到 信号 量 并 且 走 进 了 临界 区 ， 这 时 proc _ 1 在 P (mutex) 上 阻塞 。 假 定 proc _0 退出 了 临界 区 ， 然 后 执 
行 V (mutex) 操作 ， 然 后 继续 执行 P (mutex) 操作 一 一 都 在 proc _ 1 之 前 执行 ，proc _ 1 事实 上 有 机 会 检 
测 到 信和 号 量 值 为 正 值 。 在 proc _ 1 等 候 信 号 量 时 ， 即 使 信号 量 为 正 值 ，proc _ 1 也 会 被 阻止 进入 临界 区 。 

proc _0 在 增加 了 信号 量 之 后 并 不 立即 释放 CPU， 在 多 道 程序 设计 的 单 处 理 器 系统 中 ， 这 种 情况 很 可 
能 会 发 生 。 在 实现 V 操作 中 ， 建 议 增 加 一 条 yield 指令 ， 使 增加 了 信和 号 量 值 后 能 立即 放弃 CPU， 这 种 形式 
的 实现 称 为 主动 (active) V 操作 。 与 之 相对 的 是 被 动 (passive)Vy 操作 ， 在 被 动 V 操作 增加 信号 量 值 的 实现 
中 没有 机 会 进行 上 下 文 切换 。 

在 使 用 主动 和 被 动 信号 量 时 ， 还 有 一 个 方面 需要 强调 。 程 序 员 有 时 把 P 操 作 作为 一 个 “等 待 事件 发 生 ” 的 
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操作 ， 而 V 操作 作为 一 个 给 等 待 进程 发 “信和 号 ”的 操作 CL 8-16). MRE E P 操 作 时 被 阻塞 的 进 
程 ) 在 信号 出 现时 不 允许 运行 ,那么 当 了 操作 最 后 看 见 信 号 时 ，V 操作 所 通知 的 事件 还 会 是 TRUE 值 吗 ? 我 们 将 
在 第 9 章 中 再 度 遇 到 这 个 问题 ， 到 时 会 讨论 管 程 。 


8.4 共享 存储 的 多 处 理 机 中 的 同步 


在 8.1 节 和 8.3 节 中 ， 描述 了 通过 屏蔽 中 断 实现 信号 量 的 技术 。 在 共享 存储 器 的 多 处 理 器 中 这 是 不 够 
的 ， 因 为 在 一 个 CPU 上 屏 项 中 断 ， 不 会 影响 到 另 一 个 CPU， 因 而 共享 存储 器 多 处 理 机 系统 中 都 使 用 像 TS 
这 样 的 专门 指令 来 实现 信号 量 。 

当 一 个 进程 使 用 位 等 待 技术 (不 使 用 yield 指令 ) 时 ， 执 行 忙 等 待 阻 塞 进程 的 CPU 不 能 处 理 其 他 的 工作 ， 其 
他 CPU 上 可 以 运行 进程 执行 V 操作， 因而 忙 等 待 可 以 很 快 解除 ， 可 以 使 进程 解锁 继续 执行 。 在 一 些 情形 下 ,使 用 
六 个 处 理 器 中 的 一 个 去 轮 询 变量 shold 的 值 是 有 价值 的 ， 这 样 可 能 在 最 早 时 刻 检测 到 阻塞 进程 变 成 非 阻塞 。 

典型 的 共享 存储 器 多 处 理 机 的 操作 系统 中 ， 都 通过 包括 在 系统 调用 接口 中 的 旋转 锁 (spin locks) 来 支 
持 这 种 情况 。 旋 转 锁 是 一 个 过 程 ， 它 不 停 地 完成 TS 指令 以 检测 一 个 特殊 的 锁 变 量 。 为 完善 锁 的 抽象 接口 ， 
常常 要 有 创建 锁 、 加 锁 和 解锁 的 调用 ， 这 样 的 调用 有 阻塞 形式 和 非 阻塞 形式 二 种 。 利 用 非 阻 塞 形式 的 调 
用 ， 如 果 一 个 进程 检测 到 它 不 能 进入 临界 区 ， 它 就 可 以 去 进行 其 他 的 与 临界 区 无 关 的 操作 。 


8.5 小 结 


并 发 应 用 由 一 组 共享 某 些 资源 解决 共同 问题 的 进程 /线程 组 成 ， 这 引起 了 临界 区 问题 ， 而 解决 临界 区 
问题 又 使 得 两 个 或 多 个 进程 间 的 死 锁 变 得 可 能 。 本 章 讨论 了 解决 这 些 问 题 的 几 种 方法 : 可 以 在 临界 区 代码 
中 屏蔽 中 断 ， 或 更 好 的 方法 是 由 操作 系统 来 操作 锁 变 量 。 也 可 以 使 用 经 典 的 FORK ()、JOIN () 和 QIT () 
系统 调用 ， 尽 管 这 些 调用 速度 太 慢 而 且 并 不 是 很 有 效 。 这 为 Dijkstra 信和 号 量 的 出 现 奠 定 了 基础 。 

信和 号 量 是 在 现代 操作 系统 中 使 用 的 一 种 基本 同步 机 制 。 从 一 个 注重 实效 的 角度 来 看 ， 如 果 硬 件 支持 忠 指 
令 ， 信 和 号 量 可 以 在 操作 系统 内 实现 。TS 指令 可 用 来 直接 实现 二 值 信号 量 ， 或 支持 软件 组 件 来 实现 通用 信和 号 量 。 
对 信号 量 的 最 直接 的 Ts 实现 会 导致 忙 等 待 。 可 以 构建 信号 量 实现 和 调度 程序 进行 交互 来 解决 忙 等 待 问题 ， 当 一 
个 线程 进入 忙 等 待 阶段 ， 它 应 该 让 调度 程序 执行 。 最 后 ， 我 们 介绍 了 主动 和 被 动 信号 量 的 实现 。 主 动 信号 量 实 
现在 每 次 信号 量 值 改变 时 都 调用 调度 程序 ， 但 是 被 动 实现 仅 在 进程 在 信号 量 上 阻塞 时 才 调用 调度 程序 。 

本 章 的 内 容 为 学 习 同步 打下 了 基础 ， 讨 论 了 如 何 使 用 信号 量 对 一 些 复杂 同 步 情况 进行 编程 。 下 一 章 将 
学 习 同 步 抽象 。 


8.6 习题 


1. 假设 进程 po 和 pi 共享 变量 V,, HE pi 和 p 共享 变量 Vo, HE pz 和 ps 共享 变量 Vi 

a. 进程 如 何 能 够 使 用 enableInterrupt () 和 disableInterrupt () 来 协同 访问 Vo. ViA V2, 从 
而 避免 出 现 临界 区 问题 。 
b. 进程 如 何 使 用 信号 量 协同 访问 Vo, ViA V: ， 从 而 避免 出 现 临界 区 问题 。 

2. 开放 和 屏蔽 中 断 从 而 阻止 计时 器 中 断 激活 调度 程序 是 实现 信和 号 量 的 一 种 方法 。 这 种 技术 会 影响 1/O 
操作 ， 因 为 它 会 使 MO 操作 在 中 断 变 成 使 能 之 前 得 不 到 及 时 处 理 。 解 释 一 下 这 种 技术 如 何 影 响 系 
统 时钟 的 准确 度 。 

3. 下 面 的 程序 声称 解决 了 临界 区 问题 ， 讨 论 一 下 它 的 正确 性 ， 或 者 举 出 一 种 使 它 出 错 的 情形 。 


shared int turn; 
shared boolean flag[2]; 
proc(int i) { 
while (TRUE) { 
compute; 
/* Attempt to enter the critical section */ 
try: flag[i] = TRUE; /* An atomic operation */ 
while (flag[(i+l) mod 2]){ /* An atomic operation */ 
if (turn = = i) continue; 
flag[i] = FALSE; 
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while (turn != i); 
goto try; 
} 
/* Okay to enter the critical section */ 
<critical section>; 
/* Leaving critical section */ 
turn = (i+1) mod 2; 
flag[i] = FALSE; 
} 


} 
turn = 0; /* Process 0 wins a tie for the first turn */ 


flag(0] = flag[{1] = FALSE; 
/* Initialize flags before starting */ 
fork(proc, 1, 0); /* Create a process to run proc(0) */ 
fork(proc, 1, 1); /* Create a proce’s to run proc(1) */ 


4. Dijkstra 提出 了 如 下 解决 临界 区 问题 的 可 能 的 软件 解决 方案 ， 并 解释 了 为 什么 它们 会 失败 [Dijk- 
stra，1968]。 举 例 解释 一 下 它们 为 什么 会 失败 。 


a. proc(int i) { 
while (TRUE) { 


compute; 
while (turn != i); 
critical_section; 
turn = (i+1) mod 2; 
} 

} 

shared int turn; 

turn = 1; 


fork(proc, 1, 0); 
fork(proc, 1, 1); 


b. proc(int i) { 
while (TRUE) { 
compute; 
while (fiag{[ (i+1) mod 2]); 
flag{i] = TRUE; 
critical _section; 
flag[i] = FALSE; 
} 
} 
shared boolean flag[2]; 
flag[0} = flag[1] = FALSE; 
fork(proc, 1, 0); 
fork(proc, 1, 1); 


c. proc{int i) { 
while (TRUE) { 
compute H 
flag[i] = TRUE; 
while (flag[ (i+1) mod 2)); 
critical_section; 
flag[i] = FALSE; 


} 
shared boolean flag[2]; 


flag[0] = flag[1] = FALSE; 
fork(proc, 1, 0); 
fork(proc, 1, 1); 

5. 在 有 限 缓冲 问题 的 解决 方案 中 (图 8-18) ， 考 虑 一 下 生产 者 和 消费 者 中 前 两 个 P 操作 的 检测 次 序 。 
假定 将 消费 者 中 的 P (full) MP (mutex) 指令 换个 次 序 ， 则 解决 方案 仍然 是 正确 的 吗 ? 

6. 假设 图 8-21 中 的 信号 量 writePending 被 省 略 掉 ， 描 述 一 种 简单 的 reader 和 writer 活动 序列 ， 使 其 引 
起 第 二 种 reader-writer 方案 失败 。 
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7. 假设 有 两 个 进程 pi 和 pr, pr 打印 pi 生成 的 字 节 流 。 编 写 一 个 pi 和 p: 执行 过 程 的 框架 代码 ， 说 
明 它 们 之 间 是 如 何 使 用 P、V 操作 实现 同步 的 。 
8. 下 面 是 一 个 所 谓 解决 了 临界 区 问题 的 方案 ， 讨 论 一 下 它 的 正确 性 ， 或 者 举 出 一 种 出 错 的 情形 。 


shared int turn; /* shared variable to synchronize 
operation */ 
boolean flag[2}; /* shared variable to synchronize 


operation */ 


proc(int i){ 
while (TRUE) { 
<compute>; 
flag[i] = TRUE; /* Attempt to enter the critical 
section */ 
turn = (i+1) mod 2; 
while ((flag[(it+l1) mod 2]) && (turn == {i+1) mod 2)}; 
/* Now authorized to enter the critical section 
<critical_section>; 
/* Exiting the critical section */ 
flag{i] = FALSE; 
} 
} 


flast0) = flag[1] = FALSE; 

fork(proc, 1, 0); /* Start a process on proc(0) */ 

fork(proc, 1, 1); /* Start a process on proc(l) */ 

9. 在 第 4 章 和 第 5 章 ， 你 了 解 了 设备 驱动 程序 如 何 与 设备 控制 器 硬件 来 进行 同步 的 〈 使 用 控制 器 状态 
寄存 器 中 的 busy 和 done 标志 位 )。 在 图 5-6 所 示 的 框架 中 ， 驱 动 程序 启动 设备 进行 操作 ， 将 I/O 
细节 信息 写 人 设备 状态 表 ， 然 后 停止 。 设 备 处 理 程序 从 设备 状态 表 中 读 取 细 节 信 息 ， 完 成 I/O 操 
作 ， 然 后 从 系统 调用 返回 〈 到 调用 程序 )。 一 些 操作 系统 (如 Linux) 使 用 了 不 同 的 方法 ， 这 取决 
于 内 核 中 的 同步 机 制 。 不 同 于 将 状态 写 到 设备 状态 表 然 后 停止 ， 而 是 驱动 程序 处 于 阻塞 状态 直到 
设备 处 理 程序 通知 它 解 除 阻塞 状态 ， 并 返回 到 调用 者 。 为 设备 驱动 程序 和 处 理 程 序 写 一 个 伪 代 码 
来 解释 它们 是 怎样 工作 的 。 

10. 理发 师 睡 觉 问 题 (The Sleepy Barber Problem) [Dijkstra，1968]。 假 设 一 个 理发 店 中 有 一 个 私有 的 
房间 ， 里 面 有 一 把 理发 用 的 椅子 ; 一 个 带 推拉 门 的 等 候 室 ， 里面 有 N 把 椅子 ( 见 图 8-26)。 如 果 
理发 师 在 忙 ， 那 么 私有 房间 的 门 是 关闭 的 ， 此 时 到 达 的 顾客 就 坐 在 等 候 室 中 的 一 把 空 椅子 上 等 
待 ; 如 果 等 候 室 也 坐 满 了 ， 那 么 再 到 达 的 顾客 就 会 不 理发 就 离开 ;如 果 没 有 顾客 在 理发 ， 那 么 理 
发 师 就 坐 在 理发 用 的 椅子 上 睡 党 ， 同 时 把 私有 房间 的 门 开 着 ; 如 果 理 发 师 在 睡觉 ， 到 来 的 顾客 可 

以 叫 醒 理 发 师 ， 并 开始 理发 。 编 写 一 个 代码 段 来 详细 说 明 顾 客 与 理发 师 之 间 的 同步 。 

11. 说 明 一 个 情况 ， 执 行 图 8-25 中 V 过 程 的 进程 会 检测 到 当 s.value 小 于 或 等 于 0 时 ， 然 后 s.hold 
的 值 为 TRUE。 

12. 假设 一 个 机 器 指令 集中 包括 swap 指令 ， 它 的 操作 描述 如 下 (作为 一 条 不 可 分 割 的 指令 ): 


swap(boolean *a, boolean *b) 
{ 

boolean t; 

t = *a; 

*a = *b; 

xb = t; 


解释 如 何 用 swap 指令 实现 PV 操作 。 

13. 在 老 版 本 的 UNIX 中 ， 并 没有 实现 信号 量 ， 但 使 用 另 一 个 进程 的 标准 输出 直接 作为 标准 输入 的 进 
程 ， 必 须 同 步 它 们 的 操作 ， 方 式 类 似 于 第 7 题 中 的 描述 。 编 写 一 个 程序 Source， 拷贝 一 个 文件 到 
stdout 中 ， 和 另 一 个 程序 Sink， 它 从 stdin 中 读 取 字 节 流 ， 并 对 字 节 流 中 的 字 节 数 计数 。 运 行 
Source 和 Sink， 使 Source 的 输出 成 为 Sink 的 输入 。 进 程 闻 同 步 是 如 何在 你 的 软件 中 实现 的 ? 
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图 8-26 ”理发 师 问题 
注 : 当 理 发 师 在 有 理发 用 椅子 的 房间 中 理发 时 ， 顾 客 在 等 候 室 里 等 待 。 当 没有 顾客 在 等 待 时 ， 理 发 师 就 在 理发 
用 的 椅子 上 睡觉 。 


实验 8.1: 有 限 缓冲 区 问题 


L 本 实验 可 以 在 任何 Windows 或 采用 POSIX 标准 的 操作 系统 上 实现 。 | 

Dijkstra 提出 的 有 限 缓 冲 区 〈 生 产 者 -消费 者 ) 问题 是 一 个 经 典 的 同步 问题 ， 在 其 中 诠释 了 使 用 信号 
量 的 两 种 不 同方 法 (参见 8.3 节 )。 在 本 实验 中 你 将 设计 两 个 线程 ， 在 一 个 地 址 空间 运行 ， 一 个 生产 者 线 
程 生产 “配件 "， 并 把 每 个 配件 放 在 一 个 空 缓冲 中 ， 供 消费 者 消费 ， 消 费 者 从 缓冲 中 取出 配件 ， 然 后 释放 
缓冲 到 空 的 缓冲 池 中 。 如 果 没 有 满 的 缓冲 ， 消 费 者 会 被 阻塞 ， 直 到 生产 者 生产 出 新 的 配件 。 如 果 当 生产 者 
生产 了 配件 后 ， 没 有 空 的 缓冲 可 用 时 ， 生 产 者 线程 将 会 等 待 ， 直 到 消费 者 线程 释放 出 一 个 空 缓冲 。 

这 个 问题 在 一 个 进程 中 设计 实现 ， 其 中 各 有 一 个 生产 者 和 消费 者 线程 ， 并 使 用 N 个 不 同 的 缓冲 (将 
NN 定 为 25)。 你 的 解答 要 基于 “使 用 信号 量 ”示例 中 所 示 的 生产 者 和 消费 者 问题 的 解决 方案 (参见 8.3 
节 )。 你 将 需要 一 个 互 斥 的 信号 量 ， 以 阻止 生产 者 和 消费 者 同时 对 缓冲 队列 进行 操作 ; 还 需要 一 个 信号 量 ， 
当 生产 者 生成 了 一 个 满 的 缓冲 时 ， 用 于 通知 消费 者 开始 处 理 ， 以 及 另 一 个 信号 量 用 于 当 消 费 者 生成 一 个 空 
的 缓冲 时 ， 通 知 生产 者 可 以 使 用 。 

对 这 个 实验 练习 ， 在 背景 材料 中 有 三 个 子 部 分 。 第 一 部 分 提供 了 问题 的 一 般 描述 ， 第 二 部 分 描述 了 进 
程 中 的 线程 使 用 的 Windows 信号 量 ， 第 三 部 分 描述 了 POSIX 线程 和 它们 的 同步 机 制 。 阅 读 第 一 部 分 以 及 
用 来 解决 问题 的 部 分 。 其 他 的 部 分 可 以 作为 可 选材 料 来 阅读 。 


背景 


同一 进程 中 的 线程 都 使 用 相同 的 资源 ， 在 同一 个 地 址 空间 内 执行 来 解决 同一 个 问题 。 因 为 进程 中 所 有 的 线 
程 共享 资源 ， 它 们 常常 需要 协作 执行 使 得 相互 之 间 不 出 错 。Windows 同步 机 制 对 同一 进程 内 的 所 有 线程 都 适用 。 
对 UNIX 而 言 ， 你 将 使 用 POSIX 线程 (BK pthread) 包 ， 大 多 数 (并 不 是 所 有 ) 的 UNIX 系统 支持 线程 。 

下 面 的 伪 代 码 是 从 图 8-18 改编 过 来 的 (这 章 例子 中 提供 的 一 个 解决 办 法 )。 正 如 在 本 章 中 所 讨论 的 ， 生 
产 者 线程 和 消费 者 线程 都 是 由 父 线程 创建 的 (都 是 在 现代 进程 内 )。 父 线程 控制 子 线 程 运行 的 时 间 长 度 。 同 
时 ， 生 产 者 线程 和 消费 者 线程 都 持续 地 生产 和 消费 缓冲 内 的 产品 。 


int runFlag = TRUE; 

// pointers to semaphores (you will define the semaphore type 
// These are globals and shared 

semaphore empty; 

semaphore full; 

semaphore bufManip; 

struct buffer 七 { 
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int buffer[N]; 

unsigned int nextFull; 

unsigned int nextEmpty; 
} widgets; 


// The main program establishes the shared information used by 
// the producer and consumer threads 
main() { 
// Local variables 
int runTime; // Amount of time to execute 
int i; 


// Get a value for runTime 

// Initialize synchronization objects 
empty = create _sync_object(N); 
full = create_sync_object(0); 
bufManip = create_sync_object(1); 

// Initialize buffer pool 
widgets.nextEmpty = 0; 
widgets.nextFull = 0; 
for(i = 0; i < N; i++) 

widgets.buffer[i] = EMPTY; 


// Create producer and consumer threads 
create_child_thread(&prod_thrd, NULL, producer, &widgets); 
create_child_thread(&cons_thrd, NULL, consumer, &widgets); 

// Sleep while the children work ... 
sleep(runTime); 
runFlag = FALSE; // Signal children to terminate 


// Wait for producer & consumer to terminate 


// Release the semaphores 
delete_sync_object(empty); 
delete sync_object(full); 
delete_sync_object(bufManip) ; 


// Now we can quit 
printf(“Main thread: Terminated\n”); 


exit(1); 
} 
«+. producer(void *wp) { 
struct buffer t *widgPtr; 
widgPtr = (struct buffer_t *) wp; // Cast buffer pointer 
srand(P_RAND SEED); // Set random seed 
itCount = 100; 
while(runFlag) { 
// Produce the buffer 
usleep(rand()%timeToProduce);// Simulate production time 
// Get an empty buffer 
P(empty); 
// Manipulate the buffer pool 
P(bufManip); 
widgPtr->buffer[widgPtr->nextEmpty] = itCount++; 
widgPtr->nextEmpty = (widgPtr->nextEmpty+l) % N; 
V(bufManip) ; 
V(full); 
} 


a 
// Terminate 


+--+ *consumer(void *wp) { 
struct buffer t *widgPtr; 
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widgPtr = (struct buffer_t *) wp; 
srand(C_RAND_ SEED); // Set random# seed 
runFlag = TRUE; 
while(runFlag) { 
// Get a full buffer 
P(full); 
// Manipulate shared data structure 
P(bufManip); 
itCount = widgPtr->buffer[widgPtr->nextFull]; 
widgPtr->nextFull = (widgPtr->nextFull+1) % N; 
V(bufManip); 
// Consume the buffer 
usleep(rand()%#timeToConsume) ; // Simulate consumption 
v(empty); 
// Terminate 
} 


你 的 任务 就 是 为 线程 管理 和 同步 定义 所 有 的 斜体 字 函 数 。 在 目标 机 平台 上 可 以 替换 成 合适 的 函数 名 
(如 果 你 愿意 ， 也 可 使 用 这 些 函 数 名 )。 下 一 步 ， 我 们 来 看 一 下 有 关 操 作 系 统 的 特定 信息 (首先 是 Win- 
dows， 然 后 是 POSIX 线程 )。 

在 Windows 中 同步 线程 

在 Windows 中 ， 有 几 种 不 同 的 同步 机 制 ， 包 括 互 斥 和 信和 号 量 。 在 互 斥 、 信 和 号 量 或 其 他 的 操作 系统 同步 
对 象 上 的 线程 同步 都 使 用 了 等 候 函 数 。 等 候 函数 类 似 于 Dijkstra 的 P 操 作 ， 当 线程 想 要 得 到 信和 号 量 或 想 要 
进入 临界 区 时 都 会 调用 它 。 当 一 个 线程 调用 一 个 等 候 函 数 时 ， 会 阻塞 直到 同步 对 象 的 内 部 状态 确定 调用 进 
程 可 以 继续 人 处理 为 止 。 最 常 使 用 的 等 候 函 数 是 WaitForSingleObject (): 


DWORD WaitForSingleObject( 

HANDLE hHandle; // handle of object to wait for 

DWORD dwMilliseconds; // time-out interval in 

// milliseconds 

hHandle 参数 是 同步 对 象 的 句柄 。dwMilliseconds 参数 指定 了 线程 愿意 等 候 对 象 完成 同步 的 最 大 时 间 
值 (毫秒 数 )。 你 也 可 以 使 用 GetLastError () 来 查看 函数 是 因为 同步 对 象 发 出 通知 而 返回 了 (GetLastEr- 
ror () 返回 WAIT _OBJECT_0) 还 是 超过 了 最 大 的 时 间 值 (返回 WAIT TIMEOUT)。 你 也 可 以 在 参数 dwMil- 
liseconds 中 使 用 值 INFINITE， 表 示 调 用 线程 将 会 被 阻塞 直到 从 对 象 收 到 一 个 通知 ， 而 不 会 因 超时 返回 。 
WaitForSingleObject () 能 够 用 于 互 斥 以 及 信号 量 对 象 。 (WaitForSingleObject () 能 够 从 句柄 中 推断 出 
等 待 的 对 象 类 型 。) 

互 斥 对 象 是 为 处 理 临 界 区 问题 而 专门 建立 的 。 一 个 互 斥 对 象 可 以 有 一 个 所 有 者 线程 ， 也 可 以 没有 。 掌 
握 该 对 象 的 所 有 权 ， 就 意味 着 线程 是 “ 持 有 互 斥 对 象 "。 当 互 斥 对 象 创建 时 ， 一 个 线程 能 够 变 成 它 的 所 有 
者 。 为 了 理解 细节 ， 考 虑 下 面 的 函数 原型 ， 


HANDLE CreateMutex ( 
LPSECURITY ATTRIBUTES lpMutexAttributes, 
// pointer to security attributes 
BOOL bInitialowner, // flag for initial ownership 
LPCTSTR lpName // pointer to mutex-object name 
) 
属性 bnitialowner 确定 调用 线程 是 否 是 互 斥 对 象 的 所 有 者 。 如 果 设置 bInitial0wner 为 TRUE (并 且 
函数 调用 成 功 )， 互 斥 对 象 将 会 被 创建 ， 并 处 于 无 信号 状态 ,而且 调 用 线程 成 为 其 所 有 者 。 像 其 他 大 多 数 
的 创建 对 象 函数 一 样 ， 如 果 选 择 了 一 个 已 经 存在 的 名 字 ， 那 么 调用 CreateMutex 就 会 失败 ，GetLastError 
将 会 返回 值 ERROR _ ALREADY _ EXISTS, ‘ 
一 且 互 斥 对 象 被 创建 ， 与 调用 线程 在 同一 个 进程 中 的 其 他 线程 都 可 以 使 用 它 。 如 果 其 他 进程 中 的 线程 
打算 使 用 互 斥 对 象 ， 它 们 必须 要 知道 互 斥 对 象 的 名 字 ， 并 且 给 出 正确 的 和 名字， 通过 OpenMutex O 来 使 用 。 
如 果 一 个 线程 不 是 互 斥 对 象 的 所 有 者 ， 但 想 成 为 所 有 者 ， 它 可 以 使 用 等 候 函数 请 求 所 有 权 。 对 一 个 互 
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斥 对 象 的 成 功 的 等 候 调 用 〈 如 果 人 允许 超时 返回 ， 必 须要 检查 返回 码 )， 会 引起 调用 线程 成 为 互 斥 对 象 的 所 
有 者 ， 并 将 对 象 的 状态 改变 到 无 信号 状态 。 调 用 ReleaseMutex () 函数 可 以 释放 互 斥 对 象 。 

互 斥 对 象 能 够 用 于 解决 临界 区 问题 。 假 设 线程 X 和 YY 共享 资源 R 一 一 两 个 线程 都 完成 一 些 计 算 ， 都 访 
问 R， 然 后 完成 更 多 的 计算 。 由 于 R 是 一 个 共享 资源 ， 所 以 对 它 的 访问 是 一 个 临界 区 。 下 面 是 使 用 互 斥 对 
象 处 理 这 个 问题 的 代码 框架 : 

int main(...) { 

// open resource R 


// Create the Mutex objects with no owner (signaled) 
mutexR = CreateMutex(NULL, FALSE, NULL); 


CreateThread(..., workerThrd, ...)}) ...} // Create thread X 
CreateThread(..., workerThrd, ...) ...3 // Create thread Y 


} 


DWORD WINAPI workerThrd(LPVOID) { 


while(...) { 
// Perform work 
// Obtain mutex 
while(WaitForSingleObject(mutexR) != WAIT OBJECT 0); 
// Access the resource R 
ReleaseMutex (mutexR; ) 
} 


} 


信号 量 对 象 实现 了 Dijkstra 定义 中 的 通用 信号 量 的 语义 ， 则 信 了 量 对 象 能 名 维持 一 个 整数 值 表示 计数 
(而 不 是 像 互 斥 中 的 仅仅 两 个 值 )。 信 号 量 对 象 可 以 通过 下 面 的 调用 创建 : 


HANDLE CreateSemaphore( 
LPSECURITY_ATTRIBUTES lpSemaphoreAttributes, 
// pointer to security attributes 


LONG lInitialCount, // initial count 
LONG 1MaximumCount, // maximum count 
LPCTSTR lpName // pointer to semaphore-object name 


)? 

一 个 信号 量 对 象 保持 一 个 内 部 变量 ， 它 的 值 在 0 到 1MaximumCount (一 定 要 大 于 0) 之 间 。 当 对 象 创建 
时 ， 内 部 变量 的 初始 值 可 以 在 允许 范围 内 任意 设置 ， 并 且 通 过 参数 1InitialCount 来 规定 。 信 号 量 对 象 的 
状态 由 内 部 变量 的 值 确定 : 如 果 它 被 设置 为 0， 对 此 信和 号 量 调用 等 候 函 数 的 进程 会 阻塞 ， 而 如 果 信和 号 量 是 
在 1 到 1MaximumCount 范围 内 的 任 一 值 ， 调 用 等 候 函 数 会 将 这 个 值 减少 并 返回 。 

信和 号 量 对 象 的 内 部 值 是 通过 使 用 函数 间接 操作 的 ， 当 一 个 调用 等 候 函 数 的 阻塞 线程 变 成 就 绪 时 ， 它 就 
会 使 内 部 值 减少 ， 而 ReleaseSemaphore 函数 会 使 内 部 值 增加 。 


BOOL ReleaseSemaphore( 
HANDLE hSemaphore, // handle of the semaphore object 
LONG 1ReleaseCount, // amount to add to the current count 
LPLONG 1PreviousCount // address of previous count 

Ve 


其 中 参数 lReleaseCount 规定 了 对 信号 量 的 增 数 (潜在 地 引起 对 象 的 状态 改变 ) ， 参 数 lPreviousCount 
是 一 个 变量 指针 ， 用 于 表示 在 调用 ReleaseSemaphore 之 前 计数 的 值 (如果 你 不 关心 以 前 的 值 ， 可 以 设置 为 
NULL) 。 

信和 号 量 对 象 可 在 需要 同步 机 制 计 数值 的 情形 下 使 用 。 假 设 线程 X 和 YY 共享 资源 R 一 一 每 一 个 线程 都 可 能 请 
求 民 个 单位 的 资源 ， 使 用 一 段 时 间 后 ， 将 资源 释放 返回 。 下 面 是 使 用 信号 量 处 理 这 个 问题 的 代码 框架 : 
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#define N ... 


int main(...) { 
// This is a controlling thread 


// Create the Semaphore object 
semaphoreR = CreateSemaphore(NULL, 0, N, NULL); 


CreateThread(..., workerThrd, ...) ...3 // Create thread X 
CreateThread(..., workerThrd, ...) ...3 // Create thread Y 


} 


DWORD WINAPI workerThrd(LPVOID) { 
While(...) { 
// Perform some work 


// Acquire K units of the resource 
for(i = 0; i < K; i++) 
while(WaitForSingleObject(semaphoreR) != WAIT '_OBJECT_0); 
// Perform some work 


// "Release the K units 
ReleaseSemaphore(semaphoreR, K, NULL); 


} 
} 


POSIX 线程 

POSIX 线程 包 提 供 了 一 组 全 面 的 函数 ， 用 来 创建 、 删 除 和 同步 同一 现代 进程 内 的 线程 。 有 些 实现 完全 
是 在 用 户 空间 内 实现 的 (意味 着 操作 系统 实现 经 典 线程 ， 并 且 由 库 导 出 线程 函数 )。 有 的 实现 是 在 操作 系 
统 内 提供 了 线程 支持 ， 然 后 使 用 pthread API 来 为 应 用 程序 导出 API。 在 这 个 练习 中 ， pthread 是 在 用 户 空 
间 还 是 在 操作 系统 中 实现 的 并 没有 关系 ， 因 为 你 可 以 直接 调用 AP 函数 而 不 用 知道 它们 的 内 部 实现 。 有 许 
多 关于 pthread 包 的 联机 参考 手册 ， 包 含 了 支持 pthread 的 UNIX 系统 中 的 man 页 。 搜索 引擎 也 是 十 分 有 用 
的 工具 ， 可 用 来 寻找 Web LA “pthread reference”. . 

线程 是 使 用 pthread _ create() 函数 来 创建 的 ， 下 面 是 函数 原型 ; 


int pthread_create(pthread_t *thread, 
const pthread_attr_t *attr, 
void *(*start_routine)(void *), 
void *arg 
3 
为 了 定义 各 种 线程 类 型 (如 pthread _t 和 pthread _attr_t) 和 pthread 包 提供 的 函数 原型 ， 需 要 包 
合 pthread,h 头 文件 。 上 述 函 数 在 调用 线程 的 地 址 空间 内 创建 一 个 新 的 线程 来 运行 。thread 参数 是 一 个 指 
向 pthread_t 的 指针 ， 它 是 新 线程 的 线程 描述 表 的 指针 。 也 可 以 使 用 attr 参数 来 为 新 线程 定义 不 同 的 属 
性 (如 栈 尺 寸 )。 可 以 使 用 默认 属性 ， 如 将 NULL RY attr 参数 。 第 三 个 和 第 四 个 参数 指定 了 函数 的 人 口 点 
start _ routine 和 参数 argo RGE E 0 表示 成 功 ， 非 0 表示 失败 。 
父 线程 可 以 使 用 以 下 函数 等 候 子 线程 终止 (也 就 是 说 ， 同 步 终 止 ): 
int pthread | join(pthread _ t thread, void wx status); 
thread 参数 是 子 线程 的 pthread _t。 如 果子 线程 使 用 pthread exit (void*) 返回 一 个 值 ， 它 会 经 由 status 
参数 来 返回 到 父 进程 。 子 线程 的 资源 (如 子 线程 描述 表 ) 会 直到 父 线程 调用 pthread join () 后 才 释 放 。 
假定 我 们 想 要 创建 一 个 线程 ， 它 执行 具有 以 下 原型 的 函数 : 
void* worker _ thread(void* a_ list); 


我 们 可 以 使 用 下 面 的 代码 段 实 现 
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int main () { 
pthread_t my_thread; 
struct my struct_t *my struct; 
int *ret_val; 


my_struct = ... 
// Define the argument list for the worker thread 
if(!pthread_create(&my_ thread, NULL, worker thread, 
a_list)) (fprintf(stderr, ...); 


} 


// Wait for the child to terminate . 
if(!pthread_join(my thread, &ret_val)) { // error return} 


} 


void *worker_thread(void *arg) { 
int *ret_val; 


77 work is completed, terminate 
pthread _exit(ret_val); 
} . 
在 pthread API 中 有 许多 不 同 的 同步 原 语 ， 包 括 互 斥 锁 、 条 件 变 量 和 读 / 写 锁 。 条 件 变量 原 语 结合 互 斥 
锁 和 另 一 个 同步 原 语 来 提供 了 一 个 专门 的 机 制 ， 但 在 这 个 练习 中 ， 并 不 是 十 分 合适 。 条 件 变量 被 用 在 一 个 
称 为 管 程 的 抽象 机 制 中 ， 这 将 在 第 9 章 进行 描述 。 读 / 写 锁 可 用 在 8.3 节 描 述 的 reader-writer 问题 的 例子 
中 。 也 就 是 说 ， 多 个 reader 可 以 同时 获得 rwlock， 但 某 时 仅仅 只 有 一 个 writer 可 以 得 到 rwlock。 你 可 以 使 
用 互 斥 锁 作 为 原 语 来 解决 这 个 实验 练习 。 
pthread _ mutex _t 类 型 是 一 个 同步 原 语 ， 它 是 作为 一 个 非 占 有 资源 而 创建 的 ， 线 程 可 以 通过 pthread 
_ mutex _ lock () 调用 来 获得 所 有 权 。 用 pthread_mutex_ unlock () 调用 放弃 所 有 权 。 所 以 ，pthread _ 
mutex _lock () 用 来 获得 对 临界 区 的 互 斥 访问 (& Dijkstra P 操作 ) ，pthread _ mutex unlock () 用 来 释 
放 控 制 权 ( 像 V 操作 )。 这 里 给 出 创建 互 斥 锁 的 函数 原型 (pthread _ mutex _ init ()), BRAK 
(pthread _ mutex _ destroy ()) 和 操作 互 斥 锁 的 两 个 函数 原型 : 


int pthread mutex . init{(pthread mutex t *mutex, 
const pthread_mutexattr_t *attr); 

int pthread mutex _ destroy (pthread | mutex_t *mutex); 

int pthread_mutex  lock(pthread mutex 七 *mutex); 

int pthread_mutex unlock (pthread mutex t *mutex); 


在 这 些 函数 中 的 mutex 参 数 是 指向 pthread_ mutex 互 斥 锁 描 述 表 的 一 个 指针 。 就 像 创建 线程 可 以 为 线 
程 提供 属性 一 样 ， 你 也 可 以 为 互 斥 锁 指 定 属性 。 然 而 ， 唯 一 的 有 关 实 现 性 能 问题 的 属性 在 本 书 中 并 没有 讨 
论 。 因 此 ， 可 以 为 pthread_mutex_ init () 中 的 attr 参数 指定 NULL 值 。 
尽管 这 些 函 数 足够 你 来 解决 实验 练习 ， 但 你 可 以 查阅 相关 文档 来 发 现 一 些 其 他 的 操作 pthread _ mutex 
-七 的 函数 。 
这 里 是 使 用 pthread _mutex 七 来 解决 8， 1 节 中 帐户 余额 问题 的 代码 段 (也 可 见 图 8-15) 


pthread | mutex t bal mutex; // Global, accessible to all threads 
int main () { 
pthread_mutex_init(ébal_mutex, NULL); 
// Create acct manager threads 
} 
void *acct_mgr(void *foo) { // foo is not used in this example 
amount = get_amount(); 


switch(transaction) { 
$ 
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case CREDIT: 
pthread_mutex_lock(bal_mutex); 
balance = balance + (double) *amount; 
pthread mutex_unlock(bal_mutex); 
break; 

case DEBIT: 
pthread_mutex_lock(bal_mutex) ; 
balance = balance - (double) *amount; 
pthread mutex_unlock(bal_mutex); 
break; ‘ 


a 
注意 pthread_ mutex 七 是 一 个 二 值 信号 量 ， 但 是 你 需要 使 用 通用 信号 量 来 解决 问题 。 幸 运 的 是 ， 你 
了 解 了 使 用 TS 指令 来 实现 通用 信和 号 量 的 算法 。 这 将 有 益 于 你 在 解决 方案 中 实现 通用 信和 号 量 。 


解决 问题 
在 解决 这 个 问题 之 前 ， 一 定 要 阅读 有 关 函 数 调用 的 联机 文档 (MSDN 手册 或 UNIX 手册 )。 对 背景 部 


分 提供 的 解决 方案 的 伪 代 码 ， 使 用 前 面 所 说 明 的 每 种 内 核 同步 对 象 的 示例 进行 进一步 编码 ， 完 成 整个 的 
实现 。 


第 9 章 ”高 级 同步 技术 与 进程 间 通 信 


信号 量 解决 了 进程 的 同步 ， 但 对 复杂 的 同步 问题 如 reader-writer 问题 ， 基 于 信号 量 的 解决 方法 相当 复 
杂 。 这 么 多 年 来 ， 人 们 发 现 了 很 多 种 基于 信号 量 的 抽象 。 虽 然 这 些 抽象 没有 信号 量 功能 那么 强大 ， 但 是 它 
们 易于 使 用 。 在 本 章 中 ， 我 们 将 考虑 一 些 重要 的 信号 量 抽象 ;: AND 同步 、 事 件 、 管 程 。 我 们 也 将 研究 进 
程 间 通 信 机 制 一 一 可 以 让 进程 /线程 在 不 同 的 地 址 空间 进行 通信 的 操作 系统 设施 。 你 也 可 以 将 进程 间 通 信 
看 作 另 一 种 级 别 的 同步 ， 因 为 许多 这 样 的 机 制 有 内 建 的 同步 特性 。 所 有 的 现代 操作 系统 都 提供 了 信号 量 
(一 个 或 多 个 信号 量 抽象 ) 和 进程 间 通 信 机 制 。 


9.1 可 选 的 同步 原 语 


在 1968 年 ，Dijkstra 提出 了 一 个 有 趣 的 、 但 是 复 
杂 的 同步 问题 ， 称 为 哲学 家 就 餐 问 题 [Dijkstra， 
1968]: 五 个 哲学 家 沿 着 桌子 坐 成 一 轿 ， 如 图 9-1 所 
示 。 桌 子 上 面 有 五 盘 意 大 利通 心 粉 和 五 把 又 子 。 当 哲 
学 家 在 思考 问题 时 ， 他 们 并 不 需要 意大利 通 心 粉 和 又 
子 。 当 哲学 家 吃 意大利 通 心 粉 时 ， 他 必须 要 得 到 两 把 
叉子 ， 一 把 从 盘子 的 左边 ， 一 把 从 盘子 的 右边 。 在 吃 
完 这 些 面条 后 ， 哲 学 家 将 又 子 放 回 原 处 并 继续 开始 思 图 9-1 哲学 家 就 餐 问题 
考 。 在 哲学 家 吃 面条 时 ， 因 为 叉子 是 共享 资源 ， 他 左 ” 注 每 个 哲学 家 交 蔡 地 进行 思考 和 吃 意大利 通 心 粉 。 
边 或 右边 的 哲学 家 就 不 能 吃 意大利 通 心 粉 (用 “两 把 当 一 个 哲学 家 吃 意大利 通 心 粉 时 ， 他 会 拿 起 左边 
叉子 ” 吃 通 心 粉 的 方式 来 自 于 Dijkstra 最 初 对 问题 的 和 右边 的 叉子 。 吃 完 意大利 通 心 粉 后 ， 又 子 被 放 
表述 中 ， 有 时 候 问 题 的 描述 中 使 用 面条 和 筷子 作为 类 比 )。 回 原 处 使 得 叉子 可 以 被 他 左边 或 右边 的 哲学 家 使 
同步 问题 是 协调 哲学 家 的 行为 ,使 得 他 们 可 以 交替 地 不 限 Mo 
周期 地 进行 思考 和 吃 面条 。 
FE 
philosopher(int i){ 
while (TRUE) { 
// Think 
// Eat 
P(fork[i]); 
P(fork[(i+l1) mod 5]); 
eat(); 
V(fork[(i+1) mod 5]); 
V(fork[i}); 
} 





} 

fork[0] = fork[1] = fork[2] = fork[3] = fork[4] = 1; 
fork(philosopher, 1, 0); 

fork(philosopher, 1, 1); 

fork(philosopher, 1, 2); 

fork(philosopher, 1, 3); 

fork(philosopher, 1, 4); 








图 9-2 哲学 家 就 餐 问 题 的 一 种 解决 方法 
È: 在 这 个 解决 方法 中 ,如果 哲 学 家 同时 拿 起 他 们 盘子 左边 的 丸子， 会 出 现 死 锁 情况 ORE) 
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哲学 家 就 餐 问 题 表 示 了 这 样 一 种 情形 ， 其 中 多 个 进程 共享 相当 大 的 一 组 资源 。 图 9-2 试图 使 用 信号 量 
来 解决 这 个 问题 。5 个 信和 号 量 用 来 表示 5 把 叉子 的 状态 。 哲 学 家 对 一 把 叉子 调用 操作 表示 他 拿 起 这 把 又 
子 。 这 个 解决 方法 存在 一 个 问题 ， 当 所 有 的 哲学 家 都 同时 拿 起 他 们 左边 的 叉子 时 ， 会 出 现 死 锁 ， 这 种 情况 
下 者 学 家 会 饿 死 。 

在 20 世纪 60 年代 到 70 年代 间 ， 计 算 机 科学 研究 者 对 如 何 同步 一 组 顺序 〈 单 线程 ) 进程 十 分 感 兴 趣 。 
系统 设计 者 对 Dijkstra 的 最 初 工作 做 了 很 大 的 改进 ， 使 得 信号 量 技 术 的 发 展 到 达 了 顶点 。 在 发 明了 信号 量 
之 后 ， 有 一 些 论文 使 用 信和 号 量 来 解决 越 来 越 复杂 的 问题 (如 Reader- Writer 问题 和 哲学 家 就 餐 问题 ) 。 在 理 
解 了 这 些 复杂 的 同步 问题 的 解决 方案 后 ， 一 些 有 远见 的 研究 人 员 开 始 注意 到 并 发 程序 设计 可 能 太 复杂 而 不 
能 被 广泛 地 使 用 。 即 使 硬件 和 网 络 已 经 得 到 了 很 大 发 展 ， 使 得 它们 可 广泛 地 支持 并 行 计算 ， 但 是 控制 硬件 
的 软件 是 如 此 复杂 ， 使 得 发 展 这 种 技术 基本 上 是 不 可 能 的 。 这 些 研 究 人 员 开 始 思考 更 容易 实现 同步 的 抽 
象 。 需 要 说 明 的 是 ， 新 的 同步 机 制 不 能 解决 使 用 信号 量 也 无 法 解决 的 一 些 问 题 。 但 它 的 目标 是 使 得 解决 问 
题 更 加 容易 一 些 。 相 关 文 献 中 描述 了 一 些 信 号 量 的 替代 方式 和 一 般 化 方式 。 下 面 我 们 将 考虑 一 些 十 分 有 趣 
的 抽象 (现在 仍然 在 使 用 ) 。 


9.1.1 AND 同步 


在 很 多 并 行程 序 中 〈 包 括 哲学 家 就 餐 问题 )， 进 程 需要 在 一 组 条 件 而 不 是 一 个 条 件 上 进行 同步 。 例 如 ， 
假设 有 两 个 共享 资源 R 和 Rz， 它 们 能 够 被 一 组 进程 /线程 |p) 所 访问 。 一 些 进程 只 需要 Ri， 而 另 一 些 
只 需要 Rz， 然 而 ， 一 些 进程 同时 要 求 对 R, AR 独占 访问 。 如 果 使 用 信号 量 ， 每 次 一 个 进程 想 访 问 资 源 
R; (j 是 1 或 2)， 则 有 如 下 代码 ; 


P(mutexj) # 

. <access Rj> 

V{mutexj); 

然而 ， 假 设 一 个 线程 p, 需要 访问 两 个 资源 。 很 容易 想到 p, 只 是 简单 地 对 两 个 信号 量 拱 套 P 操作， 如 
图 9-3a 所 示 ; 同时 进程 p, 对 相同 的 两 个 信号 量 ， 以 相反 的 次 序 嵌 套 了 操作 ， 如 图 9-3b 所 示 ; 结果 会 造成 
死 锁 。 假 设 p, 获得 了 mutex; ， 同 时 p, 获得 了 mutexs 。 在 这 种 特定 的 情况 下 ， 户 持 有 mutex, 并 因为 mutex, 
阻塞 ， 同 时 p, 持 有 mutex, 并 因为 mutex, 阻塞 。 这 个 问题 的 出 现 是 由 于 有 时 只 应 该 使 用 一 个 信和 号 量 ， 而 有 
时 又 应 该 使 用 另 一 个 信号 量 ， 以 及 有 时 两 个 都 应 该 使 用 。 不 幸 的 是 ， 不 同 程序 员 所 编写 的 程序 中 会 使 用 不 
同 的 顺序 去 获得 信号 量 。 


p, 操作 次 序 


P(mutexl); 
P(mutex2); 
<access R,>}; 


p, 操作 次 序 


P(mutex2); 
P(mutexl]); 


<access R,>; 
<access R,>; 
V(mutexl); 
V(mutex2); 


<access R,>; 
V(mutex2 ); 
V(mutexl); 





b) 


图 9-3 kE SERE 
È: 不 同 的 程序 员 在 编写 程序 时 会 以 不 同 的 顺序 来 请 求 两 个 信号 量 。 例 如 p, 试图 在 得 到 mutex2 之 前 得 到 mu- 
texl, M p, 试图 在 mutexl 之 前 得 到 mutex2。 这 会 导致 死 锁 。 


假设 一 个 抽象 P 操作 就 能 够 一 次 获得 所 有 请 求 的 信号 量 ， 否 则 只 要 信号 量 中 的 任 一 个 不 能 获得 ， 就 一 
个 也 得 不 到 ， 调 用 进程 就 被 阻塞 。 这 称 为 同时 (simultaneous) P 操作 ， 或 者 AND 同步 ， 它 的 形式 如 下 : 

P simultaneous (S, wee, Sa) 

P simitancous 操作 是 如 下 定义 的 [Maekawa，et al., 1987]: 
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P_sim(semaphore S, int N) { 
Ll: if ((S{0j>=1)&& .. &&(S[N-1}>=1)) { 
for(i=0; i<N; i++) S[i]--; 
} else { 
Enqueue the calling thread in the queue for the first S[i} 
where S[i]<1; 
The calling thread is blocked while it is in the queue; 
Goto L1; // When the thread is removed from the queue 
} 
} 


V simultaneous 操作 从 队列 中 移出 线程 : 


V_sim(semaphore S, int N) { 
for(i=0; i<N; i++) { 
S[i]++; 
Dequeve all threads in the queue for S[i]; 
All such threads are now ready to run (but may be blocked 
again in Psimultaneous); 
} else { 
} 


实现 这 些 操作 是 有 技巧 的 ， 因 为 需要 第 三 方 来 将 调用 线程 置信 队列 (线程 不 能 自己 进入 队列 ， 然 后 释 
放 临 界 区 )。 在 对 管 程 的 讨论 中 ， 你 会 看 见 线程 会 自己 阻塞 自己 ， 尽 管 它 需 要 额外 的 机 制 。 图 9-4 给 出 了 
当 线 程 数 为 2 时 第 三 方 执行 的 代码 。 这 个 解决 方法 通过 检测 信号 量 的 值 (R.val 和 S.val) 来 确定 自己 
的 值 。 i 

像 本 章 中 所 描述 的 其 他 机 制 一 样 ， 同 时 信和 号 量 机 制 是 否 被 认为 是 “ 原 语 "， 取 决 于 它 是 如 何 实现 的 。 
如 果 它 用 类 似 于 图 9-4 中 所 说 明 的 技术 来 实现 ， 那 么 它 就 是 可 以 在 例 程 库 中 实现 的 抽象 ;如 果 在 操作 系统 
中 实现 一 一 例如 ， 通 过 使 用 了 TS 指令 的 代码 段 ， 那 么 它 就 能 够 构造 成 为 一 个 同步 原 语 。 
a 





示例 : 使 用 AND 同步 来 解决 哲学 家 就 餐 问 题 
我 们 来 重新 考虑 一 下 图 9-1 所 示 的 哲学 家 就 餐 问 题 ， 下 面 使 用 AND 同步 (n =2) 来 解决 这 个 问题 。 


philosopher(int i){ 
while (TRUE) { 
// Think 
// Eat 
P.sim(fork{i], fork[(it+l) mod 5]); 
eat(); 
V.sim(fork[I], fork[ (itl) mod 5}); 
} ‘ 
} 
semaphore fork[5]; 
fork[0] = fork[1] = fork[2] = fork[3] = fork(4] = 1; 
fork(philosopher, 1, 0); 
fork(philosopher, 1, 1); 
fork(philosopher, 1, 2); 
fork(philosopher, 1, 3); 
fork(philosopher, 1, 4); 





9.1.2 事件 


FH (events) 是 信号 量 操作 的 一 种 抽象 ， 在 信号 量 用 于 应 用 程序 间 的 协同 方面 特别 有 用 (相对 于 互 
斥 使 用 而 言 )。 可 用 一 个 事件 表示 一 组 进程 中 某 些 条 件 的 发 生 。 如 果 一 个 进程 需要 根据 -一 个 事件 的 发 生来 
同步 它 的 操作 ， 那 么 它 在 事件 发 生前 会 阻塞 自己 ， 直 到 系统 中 的 其 他 部 分 引发 事件 。 因 而 一 个 事件 类 似 于 
信号 量 ， 等 待 事件 类 似 于 P 操作 ， 通 知事 件 的 发 生 类 似 于 V 操作。 
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——— 
int R_num = 0, S_num = 0; 

Queue R_wait, S wait; 

Semaphore mutex = 1; 


P_sim(PID callingThread, semaphore R, semaphore S$) { 
Li: P(mutex); 
if(R.val>0)&&(S.val>0)) { 
P(R); P(S); 
V(mutex); 
} else { 
if(R.val==0) { 
R_numt++; 
enqueue(callingThread, R_wait); 
V (mutex); 
goto Ll; 
else { 
S_numt++; 
enqueue(CallingThread, S wait); 
V(mutex); 
goto Ll; 
} 
} 
} 


V_sim(semaphore R, semaphore S) { 
P(mutex); 
V(R); V(S); 
if(R_num>0) { 
R_num--; 


~ 


dequeue(R_wait); // Release a thread 
} 
if(S_num>0) { 

S_num--; 

dequeue(S_ wait); // Release a thread 


} 
V(mutex); 


} 
| 
图 9-4 同时 信号 量 


注 : 同时 (AND 类 型 ) 信号 量 可 使 用 传统 的 信号 量 来 实现 ， 它 是 由 守护 线程 来 执行 的 ， 而 不 是 通过 调用 者 线程 
来 执行 。 进 程 会 在 P.si 操作 上 阻塞 直到 它 能 得 到 R 和 S 信号 量 。 











在 操作 系统 的 事件 实现 上 ， 不 同 的 操作 系统 设计 者 几乎 使 用 相同 的 名 字 ， 并 且 它 们 都 基于 相同 的 基本 
概念 。 所 有 这 些 操作 系统 都 使 用 一 种 称 为 事件 描述 表 (或 者 称 为 事件 控制 块 ， 或 其 他 类 似 的 名 字 ) 的 系统 
数据 结构 来 表示 事件 。 进 程 可 以 等 候 事件 ， 使 得 它们 被 放 人 相应 事件 描述 表 的 进程 列表 中 。 当 一 个 进程 发 
出 一 个 事件 时 ， 系 统 调用 会 使 用 事件 描述 表 来 激活 一 个 或 多 个 阻塞 进程 。 

事件 行为 的 准确 语义 在 不 同 的 系统 中 是 有 差别 的 。 下 面 是 一 组 通用 的 事件 语义 : 事件 名 (或 指针 ) 常 
常 是 在 全 局 地 址 空间 内 定义 的 ， 使 得 事件 可 以 被 所 有 现代 进程 内 的 所 有 线程 使 用 。 对 一 个 事件 来 说 ， 有 三 
个 典型 成 员 函 数 : 

Bait () 事件 操作 会 阻塞 调用 线程 ， 直 到 另 一 个 线程 完成 对 事件 的 一 个 signal () 操作 。 

B signal () 操作 会 正确 地 就 绪 一 个 被 中 让 O 事件 调用 所 阻塞 的 线程 ， 如 果 当 signal 发 出 时 没有 线 

程 在 等 待 ， 这 个 操作 就 会 被 忽略 。 

E queue () 操作 可 以 返回 当前 在 等 待 事件 的 线程 数目 。 

事件 和 信号 量 间 的 主要 区 别 是 : 当 发 出 一 个 signal () 时 ， 如 果 没有 线程 在 等 待 ， 则 signal O 的 结 . 
果 并 不 被 保存 并 且 它 的 发 生 没 有 影响 。 这 些 语 义 的 基本 原理 是 : 信号 表示 事件 刚刚 发 生 的 情况 ， 并 不 是 表 
示 过 去 某 个 时 候 发 生 事件 的 情况 。 如 果 另 一 个 线程 在 一 个 任意 的 时 间 以 后 检测 到 事件 的 发 生 〈 如 同 被 动 的 信 
号 量 操作 情形 )， 则 在 signal () 调用 和 weit O 调用 间 的 因果 关系 会 丢失 。 这 些 语义 会 在 9.2 节 的 管 程 讨论 
中 重新 考虑 。 
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e 
示例 : 使 用 通用 事件 

假设 一 个 事件 topOfHour 已 经 被 声明 : 

topOfHour.signal (); 
”意思 是 一 个 进程 调用 topofHour 事件 的 signal 过 程 。 另 一 使 用 topofHour 事件 的 进程 会 因为 执行 如 下 语句 
被 topOfHour 事件 阻塞 : 

topOfHour .wait (); 

现在 ,假设 几 个 进程 希望 挂 起 自己 ， 直 到 某 一 个 时 间 (不 妨 说 一 个 确切 时 间 ， 如 5: 00: 00， 见 第 8 
章 中 的 间谍 例子 )。 每 个 进程 都 在 上 次 事件 发 生 后 , 但 在 下 次 事件 发 生 之 前 的 某 个 时 间 调 用 
topOfHour.wait ()。 这 会 引起 所 有 这 些 进程 在 事件 topOfHour 上 排队 等 待 。 与 此 同时 ， 另 一 个 进程 ， 如 图 
9-5 所 示 的 代码 ， 读 取 系 统 时钟 ， 确 定 什么 时 候 时 钟 已 到 达 预 先 确定 的 时 间 (示例 中 的 正点 ); 当 读 时 钟 进 
程 检测 到 时 间 刚 好 到 正点 时 ， 它 并 发 地 通知 所 有 排队 的 进程 事件 发 生 。( 当然 ， 调 度 策略 会 影响 这 个 解决 
方案 的 准确 性 ， 尽 管 意图 是 让 事件 通知 在 事件 发 生 后 尽 可 能 快 地 运行 。) 


class Event { 


public: 


void signal(); 
void wait(); 
int queue(); 












shared Event topOfHour; 








// Wait until the top of the 
// hour before proceeding 
topOfHour.wait(); 

// It's the top of the hour … 








shared Event topOfHour; 


while (TRUE) 

if (isTopOfHour ())} 
while (topOfHour.queue()> 0) 
t@pOfHour.signal (); 









topOfHour 





@® signal {) 


图 9-5 使 用 事件 进行 同步 
注 : topOfHour 事件 被 表示 成 一 个 类 ， 进 程 使 用 wait 0O 调用 来 等 待 事件 的 发 生 ， 另 一 个 进程 轮 询 时 钟 来 确定 是 
SATER 


nn M 


本 一 一 一 一 
示例 : Windows NT/2000/XP 中 的 分 派对 象 

Windows NT/2000/XP 操作 系统 中 的 各 种 对 象 ， 都 是 使 用 NT 内 核 分 派对 象 〈 dispatcher objects) 的 一 个 
类 对 象 来 建立 的 子 类 ， 每 个 分 派对 象 中 有 允许 对 象 处 于 有 信和 号 或 无 信号 状态 的 状态 变量 ( 参见 第 8 章 的 实 
验 练习 和 图 9-6)。 例 如 ， 当 一 个 线程 在 运行 时 ， 线 程 描述 表 对 象 的 分 派 器 对 象 部 分 处 于 无 信和 号 状态 ， 当 线程 
终止 时 ， 对 应 分 派 器 对 象 转变 到 有 信和 号 状态 。 其 他 不 同 的 操作 同样 会 引起 对 象 状态 的 改变 ， 在 软件 编程 中 能 
够 通过 使 用 Win32 API 中 的 wait 函数 ( WaitForSingleObject () 和 WitForMultipleobjects ())， 来 检测 对 象 
的 状态 。wait 函数 使 用 一 个 句柄 访问 一 个 操作 系统 对 象 ， 并 检测 它 的 状态 。 如 果 目 标 对 象 处 于 有 信和 号 状态 ， 
wait 函数 就 返回 到 调用 者 ; 如 果 目 标 对 象 处 于 无 信号 状态 ，wait 函数 就 会 阻塞 调用 线程 ， 直 到 一 组 条 件 中 的 
一 个 满足 〈 例 如 ， 对 象 转变 到 有 信和 号 状态 ， 或 者 调用 期 限 超时 )。 一 旦 从 函数 调用 返回 ， 调 用 线程 再 次 处 于 
可 运行 状态 。 
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CreateThread(---) 


WaitForSingleObject (foo, time) ; 


(模拟 一 个 P 操 作 ) 


置 无 信号 状态 


Signaled/Not Signaled Flag 


线程 结束 = EMA SRA 
( BL — AV RE ) 





图 9-6 Windows 分 派 器 对 象 
LE: Windows 分 派 器 对 象 包含 了 一 个 变量 ， 用 来 指示 对 象 处 于 有 信和 号 还 是 无 信号 状态 。 分 派 器 对 象 是 其 他 操作 
系统 对 象 的 一 个 组 件 。 每 个 操作 系统 对 象 都 有 什么 时 候 从 有 信和 号 状态 转变 到 无 信号 状态 的 精确 语义 。 也 能 
定义 操作 系统 对 象 ， 使 得 它 可 以 激活 在 一 个 事件 上 阻塞 的 所 有 线程 。 


是 什么 引起 对 象 从 一 种 状态 转变 到 另 一 种 状态 呢 ? 在 一 些 情形 中 ， 是 由 于 对 象 的 其 他 活动 所 引起 的 副 
作用 ， 有 时 是 通过 明确 的 动作 实现 状态 转变 的 。 有 些 对 象 的 主要 目的 并 不 是 用 于 同步 ， 所 以 不 会 使 用 明确 
的 转变 状态 操作 ( 例如 进程 、 线 程 以 及 文件 描述 符 对 象 等 )。 而 只 用 于 同步 的 对 象 有 一 系列 方法 来 引起 状 
态 的 转变 ( 这 就 是 Windows 中 提供 不 止 一 种 类 型 的 同步 对 象 的 原因 )。 一 个 典型 的 控制 子 线 程 的 代码 序列 
如 下 所 示 : 


childThreadHandle = CreateThread( ...); 
/* The child and parent threads continue concurrently */ 


* 


/* The parent needs to wait for the child to terminate */ 
WaitForSingleHandle(childThreadHandle, INFINITE); 
CloseHandle(childThreadHandle) ; 


其 中 WaitForSingleObject 调用 提供 了 一 个 参数 (childThreadHandle) ， 来 说 明 要 等 哪个 操作 系统 对 象 
变 成 有 信和 号 状态 ， 以 及 第 二 个 参数 (INFINITE) 表明 等 待 的 线程 不 会 因为 超时 而 就 绪 。 也 就 是 说 ， 如 果 分 
派 器 对 象 不 变换 到 有 信号 状态 ， 这 个 调用 会 阻塞 调用 线程 无 限 长 的 时 间 。 

在 等 候 一 组 对 象 返 回 一 个 成 功 的 同步 结果 时 ，WaitForSingleHandle () 函数 会 让 线程 进入 阻塞 状态 。 
例如 ， 你 可 以 使 用 : 


DWORD WaitForMultipleObjects( 
DWORD nCount, 
// number of handles in the object handle array 
CONST HANDLE *lpHandles, 
// point to the object-handle array 
BOOL bWaitAll, // wait flag 
DWORD dwMilliseconds // time-out interval in milliseconds 
); 


第 一 个 参数 nCount 表示 阻塞 函数 的 一 组 对 象 句柄 的 句柄 数 。1pHandles 参数 指向 对 象 句柄 数组 。 第 三 
个 参数 指定 函数 是 否 等 待 所 有 的 对 象 变 成 有 信号 状态 (bWaitAll = TRUE) ， 或 仅仅 等 待 一 个 (bWaitAll = 
FALSE), dwMilliseconds 参数 是 一 个 超时 值 ， 可 以 让 函数 在 一 个 有 限 数量 的 时 间 内 返回 (和 WaitForSin- 
gleObject () 一 样 )。 如 果 超 时 值 没有 使 用 ， 则 它 的 值 为 INFINITE, WaitForMultipleObject () 函数 和 和 名 
柄 数组 的 使 用 可 以 用 下 面 的 代码 段 来 解释 : 
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define N 

.HANDLE thrdHandle[N]}; 

for(i = 0; i < N; itt) { 
thrdHandle[i] = CreateThread(...)}; 

} 


WaitForMultipleObjects(N, thrdHandle, TRUE, INFINITE); 


在 WaitForSingleObject () 或 WaitForMultipleObject () 调用 中 ， 如 果 dwMilliseconds 参数 被 设置 
为 0， 会 发 生 什么 情况 ? 因为 系统 调用 一 完成 ， 超 时 值 立即 到 期 ， 所 以 原 语 的 同步 行为 变 成 了 一 个 轮 询 原 
W. 返回 之 后 ， 调 用 进程 可 以 检查 返回 值 来 确定 被 查询 对 象 的 状态 。 

a | 





9.2 FE 


管 程 是 另 一 种 用 来 解决 同步 问题 的 好 工具 。 能 够 用 管 程 解决 的 同步 问题 ， 同 样 可 以 使 用 信和 号 量 来 解 
R, 反之 亦 然 。 管 程 仅 为 一 些 同步 问题 提供 了 一 个 简化 的 解决 方法 。 


9.2.1 操作 原理 


管 程 基于 抽象 数据 类 型 一 一 模块 ， 其 中 包含 有 存储 空间 、 操 纵 存储 空间 的 私有 过 程 ， 以 及 一 个 公共 接 
O (包括 过 程 和 类 型 的 声明 )， 这 个 接口 可 用 于 操作 存储 空间 中 的 信息 。 抽 象 数据 类 型 隐藏 了 操纵 信息 的 
实现 细节 。 管 程 (monitor) 是 抽象 数据 类 型 ， 它 在 任 一 时 刻 只 被 可 能 执行 该 过 程 的 一 个 进程 所 使 用 。 管 程 
的 引入 归功 于 Hoare [1974] 和 Brinch Hansen [1977]. 

抽象 数据 类 型 的 创建 来 源 于 程序 员 想 要 隐藏 数据 结构 的 想法 。 像 类 一 样 ， 抽 象 数据 类 型 提供 了 成 员 函 
数 和 某 些 数据 的 公共 接口 。 其 他 的 软件 使 用 公有 成 员 函 数 来 操作 数据 类 型 实例 ， 而 不 是 直接 操作 抽象 数据 
类 型 的 内 部 结构 。 当 一 个 进程 在 执行 管 程 的 一 个 成 员 函 数 时 ， 管 程 会 迫使 另 一 个 进程 等 待 。 

抽象 数据 类 型 用 来 封装 单个 软件 模块 内 的 数据 操作 。 这 阻止 了 - -个 模块 内 的 代码 直接 操作 另 一 个 模块 
内 的 数据 。 假 定单 个 线程 执行 了 两 个 模块 内 的 代码 ， 可 以 自然 地 对 其 进行 扩展 使 得 它 适 用 于 多 个 进程 / 线 
E: 不 同 的 进程 可 以 执行 相同 的 软件 模块 ， 抽 象 数据 类 型 机 制 不 允许 在 一 个 模块 内 执行 的 线程 直接 操作 另 
一 个 模块 内 的 数据 结构 。 管 程 对 这 种 思想 作 了 更 进一步 扩展 ， 线 程 不 仅 可 以 调用 成 员 函 数 来 操作 数据 ， 成 
员 函 数 的 执行 也 可 以 像 一 个 临界 区 那样 来 对 待 。 

例如 ,假设 一 个 抽象 数据 类 型 已 经 被 定义 用 于 管理 一 个 共 - 
享 变 量 balance， 并 且 有 向 balance 中 存 人 值 的 例 程 credit () vo! 
和 从 balance 中 取 值 的 例 程 debit ()s 对 抽象 数据 类 型 来 说 ， 
credit (J) 将 会 把 J 的 值 加 入 当前 抽象 数据 类 型 中 的 balance, , 
debit (K) 将 会 从 balance 中 减 去 K 值 。 两 个 线程 不 应 该 同时 public: 
执行 credit () 和 debit O 函数 ， 因 为 它们 是 管 程 函 数 。 Pimatexyy 

概念 上 ， 管 程 本 身 将 临界 区 结合 到 标准 抽象 数据 类 型 模板 <processing for proc_i> 
中 。 图 9-7 中 说 明了 管 程 是 如 何 使 用 私有 的 互 斥 信号 量 ， 保 证 } 





semaphore mutex = 1; 
<ADT data structures> 


V(mutex); 








一 个 时 刻 只 有 一 个 线程 在 管 程 中 ， 从 而 描述 为 一 个 标准 的 抽象 as | 
数据 结构 类 型 的 〈 在 语法 构成 上 ， 与 C++ 中 类 的 概念 完全 相 - 
同 )。 图 9-7 管 程 中 的 临界 区 





现在 考虑 管 程 如 何 用 于 管理 共享 变量 balance。 一 些 线程 
将 增加 共享 变量 的 值 ， 而 其 他 的 线程 会 减 小 它 的 值 。 图 9-8 所 
示 的 管 程 中 提供 了 credit () 和 debit () 函数 来 改变 变量 的 
值 ， 但 把 对 共享 变量 的 访问 作为 一 个 临界 区 进行 保护 。 尽 管 管 
程 函数 中 的 赋值 语句 可 能 产生 一 个 机 器 代码 序列 ， 也 能 保证 线 


: 这 是 管 程 的 概念 视图 ， 它 解释 了 


每 个 管 程 公有 函数 如 何 实现 顺序 
执行 语义 。 尽 管 管 程 不 一 定 以 这 
种 方式 来 实现 ， 但 是 它们 的 语义 
和 代码 段 的 语义 是 相同 的 。 


程 能 够 作为 一 个 临界 区 来 完成 全 部 的 语句 序列 ， 因 为 这 些 语句 出 现在 管 程 函 数 sharedBalance +, 





216 BOF 





monitor sharedBalance{ 
private: 
int balance; 


public: 
credit(int amount) {balance = balance + amount;}; 
debit(int amount) {balance = balance - amount;}; 
} 





图 9-8 共享 变量 的 管 程 
注 ; 使 用 管 程 可 以 很 容易 地 解决 共享 变量 管理 问题 。 这 两 个 成 员 函 数 称 为 credit 和 debit。 当 一 个 线程 运行 其 
中 的 一 个 函数 时 ， 另 一 个 想 要 执行 管 程 成 员 函 数 的 线程 不 能 中 断 其 执行 。 


9.2.2 条 件 变量 


有 时 当 一 个 进程 /线程 在 管 程 内 执行 时 ， 会 发 现 它 不 能 继续 向 前 运行 ， 直 到 其 他 一 些 进程 对 管 程 所 保 
护 的 信息 进行 了 某 些 特定 的 操作 。 例 如 ， 假 设 试图 使 用 到 目前 为 止 所 定义 的 管 程 解决 第 二 类 reader-writer 
问题 ， 图 9-9 中 显示 了 reader 和 writer 进程 的 一 般 形式 。 








reader() { writer() { 
while(TRUE) { while(TRUE) { 
startRead(); startWrite(); 
<read the resource> <write the resource> 
finishRead(); ` finishWrite(); 
} - } 
} } 
fork(reader, 0); 
fork(reader, 0); 


fork(writer, 0); 





图 9-9 reader 和 writer 模式 
TE: 每 个 reader 在 读 资源 之 前 调用 startRead () 函数 ， 在 完成 对 资源 的 使 用 后 调用 finished () 函数 。 相 似 
He, writer 在 开始 对 资源 进行 写 之 前 调用 startitrite ()， 在 完成 写 操作 之 后 调用 finishrite (), 


图 中 显示 了 管 程 公共 过 程 一 一 startRead (), startWrite ()、finishRead O 以 及 finishWrite (), 
它们 在 reader 和 writer 进入 和 离开 临界 区 时 执行 。 

图 9-10 中 所 示 的 解决 方案 并 不 有 效 ， 原因 在 于 ; 假定 writer 在 使 用 共享 资源 ， BRS CAA 
startWrite (), Ef busy EX TRUE 并 且 将 numberOfWriters 设置 为 1。writer 然后 从 管 程 中 返回 并 开始 
使 用 共享 资源 。 同 时 ，reader 调用 startRead () (或 另 一 个 writer 调用 startWrite ())。reader 要 在 
while 语句 中 进行 忙 等 待 直 到 numberOfWriters 变 成 0。 不 幸 的 是 ， 它 在 等 待 时 将 持 有 管 程 使 得 当 writer 使 
用 完 共享 资源 时 ， 不 能 进入 finishWrite () 管 程 函数 。 两 个 进程 都 不 能 继续 执行 ， 系统 进入 死 锁 状态 。 
如 果 另 一 个 writer 调用 startWrite ()， 也 会 发 生 同 样 的 问题 。 

解决 这 个 两 难 问题 的 一 种 方法 是 让 等 候 进 程 临时 放弃 管 程 ， 然 后 ， 在 稍 后 的 时 间 内 ， 它 再 试图 检测 管 
程 内 状态 的 变化 。 

RHEE (condition variable) 是 在 管 程 内 出 现 的 一 种 数据 结构 ， 它 对 管 程 的 所 有 过 程 是 全 局 性 的 ， 并 
且 可 能 通过 下 面 的 三 个 操作 来 操控 它 的 值 : 

E wait (): 挂 起 调用 进程 并 释放 管 程 ， 直 到 另 一 个 进程 向 条 件 变量 执行 了 signal ()。 

E signal (): 如 果 另 外 某 个 进程 由 于 对 条 件 变 量 的 wait O 操作 而 被 挂 起 ， 释 放 它 ; 如 果 没 有 进程 在 

等 待 ， 那 么 信号 就 不 被 保存 (没有 任何 作用 )。 
m queue (): 如 果 至 少 有 一 个 进程 由 于 条 件 变量 而 被 挂 起 ， 就 返回 TRUE， 否 则 返回 FALSE, 
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monitor readerWriter_1{ 
int numberOfReaders = 0; 
int numberOfWriters = 0; 
boolean busy = FALSE; 
public: ， 
startRead () { 
while (numberOfWriters !=0); 
numberOfReaders = numberOfReaders+1; 
}; 
finishRead () { 
numberOfReaders = numberOfReaders-1; 
}3 . 
startWrite { 
numberOfWriters = numberOfWwriters+l; 
while (busy || (numberOfReaders > 0)); 


busy = TRUE; 
yi 
finishWrite { 
numberOfWriters = numberOfWriters-1; 


busy = FALSE; 
}; 





图 9-10 使 用 管 程 解决 reader-writer 问题 失败 试验 
TE: 在 writer 获得 了 对 共享 资源 的 访问 后 ， 如 果 reader 调用 startRead ()， 它 会 在 while 语句 处 阻塞 。 只 要 它 
一 阻塞 ， 它 持 有 管 程 ， 阻 止 了 其 他 进程 执行 管 程 成 员 函 数 。 在 writer 使 用 完 共 享 资 源 后 ， 它 不 能 调用 fin 
ishWrite () 函数 ， 系 统 处 于 死 锁 状 态 。 


条 件 变量 和 我 们 在 9.1 节 研 究 的 通用 事件 非常 相似 ， 它 们 的 目的 都 一 样 ， 但 条 件 变量 出 现在 管 程 中 。 

signal () 操作 的 行为 有 一 种 变种 ， 类 似 于 主动 信号 量 和 被 动 信号 量 之 间 的 区 别 ( 见 8.3 节 )。 在 
Hoare 版 本 的 管 程 中 与 Brinch Hansen 版 本 中 ， 信 号 的 行为 有 所 差别 。 根 据 Hoare 的 管 程 语 义 ， 如 果 一 个 进 
E p 在 等 待 一 个 信号 ， 当 该 信号 由 在 管 程 中 的 进程 po 发 出 时 ， 那 么 应 当 立 即 让 pi 开始 在 管 程 中 执行 ， 
同时 po 被 挂 起 。 当 pi 结束 管 程 中 的 执行 时 ，po 重新 开始 在 管 程 中 执行 。Hoare 方法 的 基本 原理 是 ， 当 一 
个 信号 发 生 时 ， 这 个 特定 瞬间 的 条 件 是 正确 的 ， 但 以 后 就 可 能 不 正确 了 一 一 比如 说 当 po 完成 管 程 操 作 后 。 
在 他 最 初 的 论文 中 ，Hoare 使 用 了 这 些 语 义 来 简化 管 程 行为 正确 性 的 证 明 。 

Brinch Hansen 定义 的 管 程 语义 中 结合 了 “被 动 的 ”方法 〈 这 些 语义 也 被 认为 是 Mesa 管 程 语义 ， 因 为 
在 Xerox Mesa 编程 语言 中 有 相应 的 实现 )。 当 po 发 出 一 个 信号 时 ， 在 po 继续 执行 的 同时 ， 条 件 会 被 保存 ; 
当 po AREEN, p 将 会 通过 重新 检查 条 件 来 试图 继续 它 在 管 程 中 的 执行 。 尽 管 通 过 signal () 指示 了 
一 个 事件 已 经 发 生 ， 但 在 po 完成 signal () 后 和 pi 被 分 配 CPU 之 间 的 时 间 内 ， 条 件 可 能 发 生 了 改变 。 
偏爱 Brinch Hansen 语义 的 人 认为 ， 此 方法 比 Hoare 方法 有 更 少 的 上 下 文 切换 次 数 ， 因 而 整个 系统 的 性 能 会 
更 好 。 

使 用 Hoare 语义 ， 导 臻 等 待 操作 的 情形 可 能 如 下 : 





if(resourceNotAvailable) resourceCondition.wait(); 
/* Now available - continue ... */ 


当 另 一 个 进程 执行 resourceCondition. signal () 时 ， 就 会 发 生 上 下 文 切换 ， 使 被 阻塞 的 进程 获得 对 
管 程 的 控制 ， 并 继续 执行 话语 句 后 的 语句 。 发 出 信号 的 进程 然后 被 延迟 ， 直 到 等 待 进程 结束 管 程 操作 。 
如 果 在 相同 的 情形 下 使 用 Brinch Hansen 语义 ,会 有 如 下 的 代码 : ` 


while(resourceNotAvailable) resourceCondition.wait(); 
/* Now available - continue ... */ 


这 个 代码 段 保 证 条 件 ( 在 此 是 resourceNotAvailable) 在 进程 执行 resourceCondition.wait 之 前 被 重 
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置 ， 因 而 就 没有 上 下 文 的 切换 ， 直 到 发 出 信号 的 进程 自愿 让 出 管 程 。 
a 





示例 : 使 用 管 程 

下 面 我 们 考虑 使 用 带 条 件 变量 的 管 程 的 几 个 例子 。 在 这 些 例 子 中 ， 使 用 condition.op () 的 形式 表示 
操作 op () 用 于 名 叫 condition 的 条 件 变量 。 

一 个 正确 的 reader-writer 解决 方案 

图 9-10 中 所 示 的 reader-writer 问题 的 解决 方案 ， 在 修改 成 使 用 条 件 变 量 后 能 正确 执行 ， 如 图 9-11 所 
示 。 这 个 示例 取 自 Hoare 的 论文 ， 其 中 所 采用 的 策略 与 Courtois-Heymans-Parnas 解决 方案 中 的 有 所 不 同 。 
这 个 解决 方案 使 用 了 图 9-9 所 示 的 代码 框架 。 如 果 临 界 区 内 有 一 个 writer (由 busy 为 TRUE 说 明 )， 或 者 一 
个 writer 在 排队 等 待 管 程 ， 那 么 startRead () 管 程 例 程 就 会 在 okToRead 条 件 变量 上 等 待 。 如 果 一 个 reader 
继续 运行 ， 那 么 它 增加 使 用 共享 资源 的 reader 数目 ， 并 用 信和 号 通知 其 他 reader 继续 ; 当 一 个 reader 结束 时 ， 
如 果 没 有 其 他 reader 在 等 待 ， 它 就 用 信和 号 通知 writer。 当 一 个 writer 试图 进入 临界 区 时 ， 如 果 有 任意 reader 
或 男 一 个 writer 在 临界 区 中 ， 它 就 等 待 ， 当 一 个 write 结束 后 ， 如 果 其 他 的 writer 在 等 待 ， 就 用 信和 号 通知 
等 待 的 writer， 否 则 用 信号 通知 等 待 的 reader。 (在 Hoare 的 论文 [1974] H, 在 finishWrite 函数 中 的 if 
条 件 检测 用 来 检测 okToRead. queue， 在 具有 优化 的 编译 器 中 ， 更 加 偏好 于 等 待 的 reader。) 









monitor reader writer 2{ 
int numberOfReaders = 0; 
boolean busy = FALSE; 
condition okToRead, okToWrite; 
public: 
startRead { 
if (busy || (okToWrite.queue)) okToRead.wait(); 
numberOfReaders = numberOfReaderst+1; 
okToRead.signal(); 
}; 
finishRead { 
numberOfReaders = numberOfReaders-1; 
if (numberOfReaders = 0) okToWrite.signal(); 


















}; 
startWrite { 
if ((numberOfReaders != 0) || busy) 
okToWrite.wait(); 
busy = TRUE; 
}; 
finishWrite { 
busy = FALSE; 
if (okToWrite.queue) 
okToWrite.signal() 
else . 
okToRead.signal(); 










}; 






yi 






图 9-11 使 用 管 程 解决 reader-writer 问题 
注 : 这 个 解决 方案 使 用 条 件 变量 来 阻止 死 锁 的 发 生 。 如 果 一 个 进程 被 阻塞 ， 它 使 用 条 件 变量 wit () 函数 ， 当 
管 程 函 数 改 变 管 程 的 内 部 状态 时 ， 它 们 调用 signal O 函数 。 


同步 汽车 交通 

考虑 一 个 涉及 单行 道 的 汽车 交通 同步 问题 。 假 设 一 条 双 车 道 的 南北 路 〈 见 图 9-12) 共用 一 个 单车 道 的 
隧道 ， 一 辆 向 南 的 (向 北 的 ) 汽车 ， 只 有 在 它 到 达 隧 道 的 人 口 处 且 隧道 中 没有 到 来 的 汽车 时 ， 才 能 使 用 隧 
道 。 当 一 辆 汽车 接近 隧道 时 ， 一 个 传感器 根据 汽车 的 方向 ， 通 过 调用 函数 northboundarrival () 或 south- 
boundarrival ()， 来 通知 控制 器 中 的 计算 机 。 当 一 辆 汽车 离开 隧道 时 ， 传 感 器 又 通过 调用 函数 depart () 
(这 次 调用 使 用 通过 的 方向 作为 参数 ) 来 通知 隧道 控制 器 中 的 计算 机 。 交 通 控制 器 中 的 计算 机 设置 如 下 的 
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信号 灯 : 绿色 表示 行进 ， 红 色 表 示 停 止 。 图 9-13 所 示 为 使 用 管 程 解决 这 个 问题 的 办 法 。 





图 9-12 单车 道 的 隧道 
注 : 这 个 问题 是 同步 交通 灯 ， 使 得 当 对 面 没有 行驶 过 来 的 汽车 时 ， 欲 进 隧道 的 汽车 不 需要 等 待 。 


monitor tunnel{ 
int northbound = 0, southbound = 0; 
traffic_signal northbound_signal = RED, 
southbound_signal = RED; 
condition busy; 
public: 
northboundArrival() { // Northbound car wants to enter 
// the tunnel 
if(southbound > 0) busy.wait; // Southbound cars in the 
// tunnel 
northbound = northbound+l; // OK to proceed 
northbound_signal = GREEN; 
southbound signal = RED; 


d 
southboundArrival() { // southbound car wants to enter the 
// tunnel 
if(northbound > 0) busy.wait; // Northbound cars in the 
// tunnel 
southbound = southbound+1l; // OK to proceed 
southbound signal = GREEN; 
northbound signal = RED; 
hi 
depart(Direction exit) { // A car exited the tunnel 
if(exit==north) { 
northbound = northbound-1; 
if(northbound==0) while(busy.queue) busy.signal; 
yi 
else if(exit==south) { 
southbound = southbound-1; 
if(southbound==0) while(busy.queuve) busy.signal; 





图 9-13 ”交通 同步 
TE: 管 程 函 数 将 管理 交通 灯 状 态 作 为 临界 区 代码 来 对 待 。 当 一 个 进程 在 一 个 管 程 函数 内 阻塞 时 ， 可 以 使 用 条 件 
变量 来 使 得 阻塞 进程 释放 管 程 。 


管 程 中 提供 了 三 个 函数 : northboundarrival ()、scuthboundarrival () 以 及 depart ()。 当 一 辆 向 北方 向 的 
汽车 到 达 隧 道 时 ， 它 调用 管 程 函 数 northboundarrival ()， 该 函数 查看 隧道 中 是 否 有 向 南 行驶 的 汽车 ; 如 果 有 ， 
每 辆 向 北方 向 的 汽车 都 在 busy 条 件 上 等 待 。 向 南方 向 的 汽车 类 似 地 等 待 向 北 行驶 的 汽车 。 管 程 函 数 depart () 
查看 隧道 是 否 是 空 的 。 如 果 有 向 相反 方向 行驶 的 汽车 在 等 待 ， 它 就 用 信号 通知 它们 可 以 继续 前 进 了 。 

哲学 家 就 餐 问 题 

9.1 节 中 介绍 了 哲学 家 就 餐 问题 的 一 个 解决 方案 (使 用 AND 同步 )。 我 们 再 来 考虑 如 何 使 用 管 程 来 解决 这 个 
问题 〈( 见 图 9-14): 最 初 所 有 的 哲学 家 都 在 思考 ， 可 以 通过 把 state [i] 中 的 值 都 设置 成 thinking 来 表示 。 当 哲 
学 家 i 希望 去 吃 通 心 粉 时 ， 调 用 管 程 函 数 pickpForks (i)， 这 个 函数 只 在 该 哲学 家 两 边 相 邻 的 又 子 都 可 用 时 ， 
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才 人 允许 进程 继续 〈 可 参见 管 程 中 的 私有 函数 test ())。 只 有 当 哲 学 家 的 两 位 邻居 不 在 吃 的 状态 时 ， 他 或 她 才能 
转 人 吃 的 状态 ; 否则 ， 哲 学 家 就 会 等 待 信号 。 假 设 哲 学 家 已 经 被 阻塞 ， 当 任 一 个 相 邻 的 哲学 家 调用 putDownFor 
ks 〈) 时 ， 他 或 她 需要 被 信号 激活 。 当 然 ， 信 号 在 两 个 邻居 都 离开 吃 的 状态 时 才 会 发 出 。 只 要 任 一 个 哲学 家 狐 了 ， 
他 或 她 就 会 测试 两 边 的 叉子 状态 。 如 果 两 边 的 邻居 都 在 吃 的 状态 ， 而 哲学 家 又 试图 去 吃 时 ， 那么 只 有 两 边 的 邻 
居 都 调用 了 putDownForks， 哲 学 家 才能 从 hungry 状态 转 人 eating 状态 。 这 个 方案 中 人 允许 如 下 的 情形 ， 即 哲学 家 
从 未 立刻 获得 两 个 又 子 ， 因 为 左边 或 右边 的 邻居 可 能 已 经 占有 了 叉子 。 


fdefine N 
enum status {eating, hungry, thinking}; 
monitor diningPhilosophers{ 
status state[N]; 
condition self[N]; 
int j; 
// This procedure can only be called from within the monitor 
test(int i) { 
if ((state[i-1 mod N] !seating) && 
(state[{iJ==hungry) && 
(state[ (i+1) mod N] !=eating)) { 
state[i] = eating; 
self[(i]).signal; 
} 
}? 
public: 
pickUpForks(int i) { 
state[i] = hungry; 
test(i); 
if (state[i] !=eating) self[i}.wait; 
}; 
putDownForks(int i) { 
state[i] = thinking; 
test((i-1) mod N); 
test((itl) mod N); 
}; 
diningPhilosophers() { // Monitor initialization code 
for(int i=0; i<N; i++) state[i] = thinking; 
} 





} 








图 9-14 管 程 用 于 哲学 家 就 餐 问题 
HE: Hoare 在 他 的 论文 中 提 到 的 管 程 解决 了 哲学 家 就 餐 问题 。test () 过 程 用 来 试图 拿 起 叉子 ， 当 叉子 被 释放 


时 ， 哲 学 家 再 次 使 用 test () 过 程 。 E 


9.2.3 使 用 管 程 的 一 些 实 际 状况 

管 程 很 容易 被 误 用 。 假 设 我 们 可 以 在 一 个 管 程 中 调用 另 一 个 管 程 一 一 即 嵌 套 管 程 调用 (nested monitor 
calls) ， 那 么 当 一 个 线程 在 等 待 内 层 管 程 变 为 可 用 ， 而 同时 它 又 持 有 外 层 的 管 程 时 ， 就 会 有 死 锁 的 危险 。 若 
男 一 个 线程 持 有 与 第 一 个 线程 请 求 的 内 层 管 程 相同 的 管 程 作 为 外 层 管 程 ， 而 同时 它 又 请 求 与 第 一 个 线程 持 
有 的 外 层 管 程 相同 的 管 程 作为 内 层 管 程 ， 那 么 结果 就 只 能 是 死 锁 。 

管 程 是 处 理 复杂 同步 问题 的 功能 强大 的 高 层 机 制 。 通 常 ， 大 多 数 商 业 化 的 操作 系统 并 不 支持 管 程 。 例 
如 ，UNIX 不 支持 一 般 的 管 程 (尽管 一 些 版 本 支持 类 似 于 管 程 的 机 制 )。 然 而 ， 管 程 是 一 一 种 高 级 的 语言 结 
构 ， 它 对 于 解决 许多 复杂 的 问题 很 有 用 。Modula-3 和 Java 都 采用 了 管 程 。 我 们 期 望 有 到 像 管 程 这 样 的 高 级 
工具 能 够 被 更 新 的 语言 、 运 行 时 系统 和 操作 系统 所 支持 。 

早期 对 管 程 的 深入 研究 来 自 于 Xerox Mesa 编程 语言 中 对 管 程 的 实现 [ Lampson and Redell, 1980]. 在 
论文 的 实现 经 验 报告 中 ， 突 出 强调 了 处 理 无 数 细节 问题 时 的 困难 : ， 

“ 当 管 程 被 用 于 一 个 真正 的 操作 系统 中 时 ， 无 论 它 的 规模 大 小 ， 都 会 出 现 许 多 还 没有 处 理 好 的 问题 ， 
谋 套 管 程 调用 的 语义 ; 定义 等 待 含义 的 各 种 方式 ; 优先 级 调度 ; A, PERL labor) 以 及 其 他 例外 条 
件 的 处 理 ; 与 进程 创建 和 结束 的 相互 作用 ; 监控 大 量 的 小 对 象 等 "。[p. 105] 
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操作 系统 开发 者 倾向 于 避 开 管 程 实现 的 复杂 性 ， 而 让 程序 员 使 用 类 似 于 锁 、 信 号 量 、 事 件 以 及 进程 间 
通信 等 工具 去 解决 同步 问题 。 
9.3 进程 间 通 信 

管 程 允许 进程 间 通 过 使 用 一 个 管 程 内 的 共享 存储 来 共享 信息 。 如 果 你 对 面向 对 象 程序 设计 比较 熟悉 ， 
管 程 是 在 用 来 协同 进程 内 的 线程 间 的 信息 共享 方面 一 种 直观 和 自然 的 机 制 。 到 现在 为 止 ， 所 有 例子 中 的 信 
息 共 享 ， 都 要 求 假定 存在 共享 地 址 空间 (或 进程 间 的 共享 存储 区 )。 如 果 线 程 是 在 不 同 的 进程 内 ， 即 没有 
共享 地 址 空间 ， 那 么 操作 系统 必须 帮助 线程 实现 共享 信息 。 如 果 两 个 进程 是 在 不 同 的 计算 机 上 实现 的 ， 这 
个 问题 会 特别 严重 ， 在 这 种 情况 下 ， 甚 至 没有 对 所 有 进程 都 可 访问 的 物理 主 存储 器 。 

本 节 介 绍 了 进程 间 通 信 机 制 ( interprocess communication ，IPC)， 是 一 个 进程 内 的 线程 与 另 一 个 进程 
内 的 线程 共享 信息 的 一 种 方式 一 一 甚至 是 用 于 不 同 机 器 上 的 进程 之 间 。( 进 程 内 通信 一 -也 就 是 同一 进程 
内 的 线程 间 的 通信 -一 -相对 来 说 非常 容易 ， 因 为 线程 使 用 相同 的 地 址 空间 。 而 IPC 用 来 在 不 同 地 址 空间 内 
通信 。) 在 IPC 中 ,操作 系统 显 式 地 将 发 送 进程 地 址 空间 内 的 信息 拷贝 到 不 同 的 接收 进程 地 址 空间 中 去 。 
如 果 两 个 进程 在 相同 的 机 器 上 ， 操 作 系 统 可 以 跨 过 存储 保护 机 制 执行 拷贝 操作 ， 它 读 取 分 配给 发 送 进程 的 
计算 机 主 存储 器 中 的 信息 ， 然 后 将 信息 写 人 分 配给 接收 进程 的 主 存储 器 中 。 如 果 发 送 进程 和 接收 进程 是 在 
不 同 的 机 器 上 实现 的 ， 操 作 系统 需要 做 一 些 额外 的 工作 ， 这 个 工作 对 发 送 进程 和 接收 进程 都 不 可 见 。 

E 发 送 机 器 操作 系统 会 将 发 送 进程 的 地 址 空间 中 的 信息 拷贝 到 通信 设备 上 ， 这 个 设备 然后 会 将 信息 传 

递 到 接收 机 器 上 的 通信 设备 。 

m 接收 进程 机 器 上 的 操作 系统 会 将 通信 设备 上 的 信息 拷贝 到 接收 进程 的 地 址 空间 中 去 。 

我 们 将 在 第 15 章 讨论 物理 上 如 何 将 一 台 机 器 上 的 信息 传递 到 另 一 台 机 器 。 本 章 着 重 于 在 单个 机 器 上 
的 不 同 地 址 空间 内 的 信息 传递 ， 即 操作 系统 所 提供 的 基本 IPC 模型 。 


9.3.1 管道 模型 


UNIX 引进 了 一 种 称 之 为 管道 的 核心 数据 结构 来 支持 跨 地 址 空间 的 共享 。 管 道 (pipe) 是 在 内 核 中 实现 
的 先进 先 出 的 缓冲 。 管 道 有 一 个 读 出 端 和 一 个 写 人 端 ， 每 个 都 作为 一 个 文件 引用 (由 文件 open () 命令 来 返 
回 ) 来 对 待 。 如 果 线 程 知道 写 人 端的 文件 引用 ， 它 可 以 调用 通用 的 文件 write () 函数 来 让 操作 系统 将 数据 
写 人 管道 。 相 似 地 ， 如 果 线 程 知道 读 出 端的 文件 引用 ， 可 以 通过 内 核 read O 函数 来 将 数据 移出 管道 。 

管道 的 一 个 限制 是 使 用 管道 的 进程 内 必须 要 有 对 应 文件 引用 ，UNIX 中 将 管道 看 成 特殊 文件 ， 使 用 管 
道 的 进程 有 管道 端 对 应 的 打开 文件 描述 符 。 当 一 个 进程 创建 子 进 程 时 ， 子 进程 继承 了 管道 端 。 只 有 相关 的 
进程 ， 即 发 生 pipe () 调用 的 进程 的 子 进程 才能 共享 对 管道 的 存 取 ， 这 称 为 无 名 管道 (anonymous pipe). 
在 使 用 无 名 管道 开始 进程 间 通 信 后 不 入， 人们 便 意 识 到 了 这 个 限制 。 结 果 ， 现 在 UNIX 系统 提供 了 有 名 管 
道 ， 或 有 类 似 于 文件 名 的 管道 。 

在 有 名 管道 中 ， 进 程 使 用 类 似 于 文件 名 的 字符 串 来 获得 管道 ， 这 人 允许 一 组 进程 使 用 端 名 为 文件 各 的 公 
共管 道 来 交换 信息 。 当 一 个 进程 使 用 有 名 管道 时 ， 管 道 是 系统 范围 内 的 资源 ， 可 被 任何 进程 使 用 。 就 像 文 
件 必须 要 被 管理 ， 使 得 它们 同时 可 以 在 许多 进程 间 共 享 。 有 名 管道 也 必须 要 (使 用 文件 系统 调用 ) 管理 。 

管道 是 完成 进程 间 通 信 的 非常 简单 的 模型 。 因 为 它们 是 在 UNIX 中 引入 的 ， 程 序 员 已 经 开始 习惯 于 使 
用 它们 。 其 他 的 操作 系统 像 Windows 也 对 它 提供 了 支持 。 在 这 章 末 的 第 一 个 实验 练习 中 ， 提 供 了 在 Win- 
dows 和 UNIX 环境 中 使 用 管道 的 细节 知识 。 


9.3.2 消息 传递 机 制 


人 们 一 直 使 用 消息 互相 通信 一 一 如 电子 信函 消息 、 即 时 消息 、 电 话 消息 、 传 真 、 电 报 (EDHE 20 t 
纪 ) 等 。 如 果 你 想 要 为 另 一 个 人 留 下 消息 ， 你 会 以 一 种 你 认为 接受 者 可 以 理解 的 形式 来 组 合 消息 ， 然 后 将 
消息 传递 到 保持 接受 者 消息 的 缓冲 中 去 (信箱 )。 

IPC 负 象 使 用 了 相同 的 思想 。 消 息 (message) 是 发 送 进程 形成 的 信息 块 ， 操 作 系统 将 发 送 进程 地 址 空间 
内 的 信息 拷贝 到 接收 进程 地 址 空间 中 〈 见 图 9-15)。 有 关 消 息 传递 的 复杂 性 来 自 于 ;由 于 地 址 空间 隔离 机 制 ， 
发 送 进程 不 能 将 信息 拷贝 到 其 他 进程 的 地 址 空间 中 去 。 运 行 在 一 个 地 址 空间 内 的 线程 不 能 引用 不 同 进程 地 址 
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空间 的 地 址 ， 因 此 这 仅 能 由 核心 模式 软件 来 完成 。 发 送 者 请 求 操作 系统 将 其 地 址 空间 内 的 消息 发 送 给 接收 进 
程 或 线程 (使 用 进程 或 线程 标识 符 )。 操 作 系统 通常 用 几 步 不 同 的 拷贝 操作 来 传递 消息 : 它 从 发 送 者 的 地 址 
空间 中 得 到 消息 ,将 消息 置 人 操作 系统 缓冲 中 ， 然 后 将 缓冲 中 的 消息 拷贝 到 接收 者 的 地 址 空间 中 去 。 





OS IPC 机 制 






Po 的 地 址 空间 只 的 地 址 空间 


图 9-15 使 用 消息 来 共享 信息 


注 : 操作 系统 将 存储 在 一 个 地 址 空间 内 的 信息 拷贝 人 操作 系统 缓冲 中 。 然 后 将 缓冲 中 的 信息 拷贝 到 接收 者 的 地 
址 空间 中 。 


9.3.3 信箱 


图 9-15 表明 ， 消 息 发 送 操作 能 够 自发 地 改变 接收 进程 地 址 空间 的 内 容 ， 而 无 需 接收 方 留意 。 如 果 要 
避免 这 种 情况 ， 可 以 先 不 拷贝 信息 到 接收 方 的 空间 中 ， 直 到 接收 方 显 式 地 请 求 接收 操作 。 操 作 系 统 在 拷贝 
消息 到 接收 方 的 地 址 空间 之 前 ， 先 将 它们 缓存 在 一 个 信箱 中 。 图 9-16 显示 了 消息 传送 的 细节 ， 并 标识 出 
了 接收 方 的 信箱 ， 其 中 操作 系统 的 作用 是 明确 的 。 


Po 的 地 址 空间 P 的 地 址 空间 





图 9-16 使 用 信箱 传递 消息 
注 : 信箱 可 用 来 阻止 信息 自发 地 出 现在 接收 者 地 址 空间 中 。 当 操作 系统 为 一 个 特定 进程 接收 消息 时 ， 它 将 消息 
存储 在 信箱 区 地 址 空间 中 。 


因为 信箱 是 在 用 户 空间 内 分 配 的 ， 接 收 调用 可 能 是 库 例 程 而 不 是 操作 系统 函数 。 也 就 是 说 ， 因 为 信息 可 从 
接收 地 址 空间 中 的 一 部 分 拷贝 到 另 一 部 分 ， 这 不 必 使 用 特权 指令 就 可 以 完成 。 然 而 ， 在 用 户 地 址 空间 中 ， 为 信 
箱 分 配 空间 也 有 一 些 问题 : 编译 系统 (编译 器 和 装配 器 ) 必须 在 每 个 进程 中 为 信箱 分 配 空间 。 因 为 信箱 是 在 接 
收 者 的 地 址 空间 中 ， 也 可 能 接收 进程 不 注意 重新 覆盖 了 信箱 的 部 分 内 容 ， 从 而 破坏 了 链接 ,或 者 丢失 了 消息 。 

可 替代 的 方式 是 在 系统 空间 中 保持 每 个 进程 的 信箱 ， 并 推迟 拷贝 操作， 直到 接收 者 发 出 接收 消息 调用 
(参见 图 9-17)。 这 种 方法 把 信箱 的 管理 交 给 了 操作 系统 来 完成 ， 而 且 防 止 了 对 消息 和 信箱 数据 头 随意 地 破 
坏 ， 因 为 任 一 运行 应 用 程序 的 进程 不 能 直接 访问 信箱 。 但 这 种 方法 要 求 操作 系统 为 所 有 进程 的 信箱 分 配 存 
储 空 间 ， 因 而 在 任意 给 定 的 时 间 内 ， 系 统 限定 了 等 待 传送 消息 的 数目 。 在 下 面 的 讨论 中 假设 信箱 在 操作 系 
统 中 实现 ， 因 为 这 也 是 更 常见 的 方法 。 
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send (pi, ); receive(… ); 


操作 系统 接口 





图 9-17 系统 空间 中 的 信箱 
TE: 现代 操作 系统 典型 地 在 系统 空间 中 保持 所 有 的 信箱 。 这 是 一 种 传统 的 方法 ， 它 为 进程 间 通 信 机 制 的 正确 操 
作 提 供 了 更 好 的 保证 。 然 而 ， 它 确实 限制 了 系统 中 待 处 理 消息 的 数目 。 


9.3.4 消息 协议 


消息 是 位 的 序列 。 对 接收 进程 来 说 ， 消 息 是 代表 着 一 定 含义 的 ， 所 以 对 发 送 进程 用 来 存储 信息 的 格式 
和 接收 进程 解释 信息 的 格式 ， 必 须要 在 发 送 进程 和 接收 进程 间 达 成 一 个 协定 。 也 就 是 必须 要 在 发 送 方 与 接 
收 方 之 间 有 一 个 协议 〈protocol) ， 使 双方 都 认可 其 中 的 消息 格式 。 例 如 ， 消 息 中 可 能 包含 一 个 C 结构 的 实 
例 ， 那么 双方 会 都 理解 为 根据 公共 头 文件 中 定义 的 结构 来 进行 访问 。 

大 多 数 消息 传送 设施 中 都 使 用 消息 头 ， 它 能 够 被 系统 中 的 所 有 进程 理解 ， 用 于 标识 与 消息 有 关 的 信 
息 ,包括 发 送 进程 的 标识 号 、 接 收 进程 的 标识 号 以 及 消息 体 中 传送 信息 的 字 节 数 等 。 在 可 靠 的 消息 传送 系 
统 中 ， 消 息 可 能 甚至 有 类 型 ， 能 够 用 于 标识 包含 特定 的 信息 ， 如 同步 信息 和 错误 报告 等 。 而 有 些 IPC 机 制 
却 没有 由 操作 系统 提供 的 消息 头 或 者 其 他 信息 结构 ， 蔡 代 的 是 协同 进程 间 选 择 实现 它们 自己 的 协议 。 


9.3.5 使 用 send () 和 receive () 操作 


在 使 用 send 和 receive 操作 中 ， 一 般 都 有 两 个 选项 : 

m send 操作 可 以 使 用 同步 或 异步 语义 。 

B receive 操作 可 以 使 用 阻塞 或 非 阻塞 语义 。 

send () 操作 

send () 调用 可 以 是 同步 或 异步 的 ， 这 取决 于 发 送 方 是 否 希 望 与 接收 消息 同步 自己 的 操作 。 异 步 
(asynchronous) send () 操作 将 消息 传送 到 接收 方 的 信箱 中 ， 然 后 允许 发 送 进程 继续 运行 ， 而 不 用 等 待 接 
收 方 读 取 消息 。 因 此 完成 异步 send 操作 的 发 送 方 不 用 关心 接收 方 何 时 实际 收 到 了 消息 。 事 实 上 ， 发 送 方 
甚至 不 知道 接收 方 是 否 从 它 的 信箱 中 收 到 了 消息 。 

同步 send 操作 在 信息 传递 中 内 肉 有 同步 的 策略 ， 它 会 阻塞 发 送 进 程 ， 直 到 目标 进程 成 功 地 接收 到 消 
息 。 同 步 send() 操作 有 两 种 形式 ， 弱 形式 和 强 形 式 : 在 弱 形 式 中 ， 发 送 进程 在 消息 被 安全 发 送 到 接收 者 
的 信箱 后 继续 执行 。 在 强 形式 中 ,发 送 进程 保持 阻塞 直到 接收 进程 实际 从 信箱 中 得 到 了 消息 。 在 同步 
send 〈) 操 作 的 强 形式 语义 中 ， 可 以 使 用 消息 系统 来 完成 进程 间 同 步 。 同 步 send O 操作 的 弱 形 式 和 异步 
send () 操作 不 同 ， 因 为 前 者 确保 了 接收 者 存在 并 且 消 息 已 经 被 存储 在 信箱 中 。 同 步 send O 操作 的 弱 形 
式 和 强 形式 不 同 ， 因 为 前 者 并 不 确保 接收 进程 已 经 得 到 了 消息 。 弱 形式 并 不 完成 进程 则 同步 ， 但 是 它 提供 
了 可 靠 的 消息 传递 (SEA send () 操作 两 者 都 没有 提供 )。 操 作 系 统 IPC 机 制 典型 地 支持 同步 发 送 操作 的 
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弱 形式 (例如 ，POSIX msgsnd () 系统 调用 )。Win32 子 系统 提供 了 一 种 强 形式 的 同步 发 送 操作 ，SendMes- 
sage () 函数 ， 但 是 它 没有 在 Windows NT/2000/XP 操作 系统 中 实现 。 

强 形式 的 同步 消息 传递 与 生产 者 - 消费 者 计算 使 用 了 相同 的 基本 操作 形式 。 发 送 者 是 一 个 生产 者 ， 接 
收 者 是 一 个 消费 者 。 想 像 一 个 信号 量 messageReceived ( 初 值 为 0) ， 用 来 协同 发 送 者 和 接收 者 。 同 步 发 送 
操作 的 行为 就 像 传输 后 立即 跟 了 一 个 P (messageReceived) 操作 ， 当 接收 者 接收 到 消息 时 ， 会 隐 式 地 发 生 
一 个 V (messageReceived) 。 

无 论 同步 或 异步 的 send 操作 ， 都 会 有 各 种 失败 情形 。 如 果 发 送 方 试图 向 一 个 不 存在 的 进程 发 送 消息 ， 操 作 
系统 将 不 能 识别 用 哪个 信箱 来 缓存 消息 。 那 么 这 种 情形 如 何 处 理 呢 ? 在 同步 send 操作 的 情况 下 ， 会 返回 一 个 错 
误 到 发 送 方 ， 因 此 发 送 方 通过 错误 条 件 的 发 生来 同步 ， 而 不 是 使 用 消息 传送 的 结束 。 在 异步 send 操作 的 情况 下 ， 
发 送 方 继续 发 送 ， 而 不 期 望 有 任何 返回 值 。 如 果 没 有 像 UNIX 中 信和 号 这 样 的 机 制 ， 操 作 系 统 就 没有 办 法 通知 发 
送 进程 操作 失败 ， 因 此 一 些 系 统 阻塞 异步 send 操作 ， 直 到 消息 被 放 人 接收 方 的 信箱 。 然 而 ， 在 发 送 方 与 接收 方 
之 间 没 有 隐 含 的 同步 ， 因 为 接收 方 可 能 在 消息 被 传送 出 来 后 任意 的 时 间 内 从 信箱 中 读 取消 息 。 

receive () 操作 

receive () 操作 可 以 是 阻塞 的 或 非 阻 塞 的 。 阻 塞 的 receive () 操作 的 行为 ， 就 像 UNIX 或 Windows 
2000 中 的 文件 正常 读 操作 一 样 ， 即 当 一 个 进程 调用 receive () 时 ， 如 果 信 箱 中 没有 消息 ， 该 进程 会 被 挂 
起 ， 直 到 有 消息 放 人 信箱 ; 如 果 信 箱 中 有 一 个 或 多 个 消息 ， 则 阻塞 的 receive () 操作 会 立即 获得 一 个 消 
息 并 返回 。 因 此 ， 当 信箱 空 时 ， 阻 塞 的 receive () 操作 同步 了 接收 方 和 发 送 方 的 操作 。 根 据 同 步 规范 ， 
就 好 像 接收 方 在 接收 消息 之 前 ,对 初始 值 为 0 的 信号 量 执行 了 P (messageTransmitted) 操作 一 样 ， 而 当 发 
送 方 发 送 消息 时 ， 如 同 隐 含 地 执行 了 V (messageTransmitted) 。 观 察 receive () 的 操作 ， 也 类 似 于 资源 请 
求 的 情形 ， 它 会 引起 调用 进程 被 挂 起 ， 直 到 得 到 资源 一 个 消息 到 来 。 

非 阻塞 的 receive () 操作 查询 信箱 后 ， 立 即 返 还 控制 给 调用 进程 。 如 果 信 箱 中 有 消息 ， 就 返回 消息 ， 
或 者 返回 一 个 标示 、 表 明 没有 可 用 的 消息 。 这 种 方法 允许 接收 进程 轮 询 信箱 ， 如 果 信箱 中 没有 待 处 理 的 消 
息 ， 接 收 进程 可 以 继续 干 其 他 的 工作 。 接 收 者 仍然 可 以 与 从 发 送 者 来 的 消息 进行 同步 ， 但 并 不 必要 。 
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示例 : 同步 的 IPC 

两 个 进程 和 p 之 则 可 以 相互 拷贝 信息 ， 并 且 使 用 强 形 式 的 同步 send () 和 阻塞 的 receive () 操 
作 来 进行 同步 。 在 图 9-18 中 ， 进 程 pi 发 送 message, 到 加 ， 试 图 发 出 同步 的 信号 ， 如 果 p 已 经 执行 了 
blockReceive () (阻塞 的 接收 ) 操作 ， 则 它 在 睡眠 等 待 消息 。 如 果 信 箱 中 有 其 他 的 消息 ， 接 收 者 实际 已 经 
与 这 些 消 息 的 发 送 者 进行 了 同步 。 假 设 p, 的 信箱 在 pi 发 送 message, MEAN, p: 将 会 被 到 达 的 消息 所 
唤醒 ， 并 且 pi 将 会 继续 发 送 ， 好 像 消息 已 经 被 接收 一 样 ， 在 这 一 点 上 ， 进 程 p; 和 p; 是 同步 的 。 在 消息 
被 进程 po 接收 后 ， 两 个 进程 又 各 自 独立 地 向 前 运行 ， 当 它们 又 希望 同步 时 ， 它 们 遵循 已 经 构造 的 协议 进 
行 : 进程 p, 主动 地 通过 发 送 message, 传送 同步 信号 ， 然 后 pi 通过 执行 一 个 blockReceive () 操作 与 p2 
协同 ， 等 待 p 的 信号 。 


Process p; Process p, 





/* Signal p, for sync*/ /* Wait for p, signal */ 
syncSend(megsage,, P2)? blockReceive(msgBuffer, from) 


/* Wait for p, signal */ /* Syne with p, */ 
blockReceive(msgBuffer, from); syncSend(message,, p,)} 





图 9-18 使 用 消息 同步 
注 : 在 接收 者 等 候 消息 时 ， 强 形式 或 弱 形 式 的 同步 send () 和 阻塞 receive () 操作 可 用 来 同步 进程 。 对 强 形 
式 的 同步 send ()， 进 程 间 会 在 操作 对 上 进行 同步 。 
— |E 
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9.3.6 延迟 的 消息 拷贝 

消息 拷贝 会 成 为 性 能 的 瓶 贷 ， 因 为 信息 必须 首先 在 发 送 方 打 包 成 为 消息 ， 然 后 拷贝 到 接收 方 的 地 址 空 
间 。 在 并 发 应 用 中 ， 进 程 传送 消息 几乎 与 它们 调用 函数 一 样 频繁 ， 所 以 操作 系统 要 花费 很 大 一 部 分 服务 时 
间 从 用 户 空间 拷贝 消息 ， 并 再 次 拷贝 到 接收 方 的 地 址 空间 中 。 

在 当代 的 系统 中 ， 一 般 都 有 一 个 单独 的 物理 存储 器 ( 独立 于 CPU MRA), HERR SHA 
(copy-on-write) 优化 技术 用 于 系统 中 。 在 很 多 实例 中 ， 从 一 个 地 址 空间 拷贝 到 另 一 个 地 址 空间 的 信息 ， 都 
是 通过 接收 方 读 取 ， 且 不 会 被 发 送 方 或 接收 方 修改 。 如 果 操 作 系统 能 绕 过 存储 保护 机 制 ， 那 么 就 可 以 使 用 
写 时 拷贝 消息 通信 语义 来 减少 拷贝 消息 的 次 数 。 发 送 方 只 在 它 的 地 址 空间 中 识别 出 源 消息 块 所 在 主 存 块 ， 
而 不 是 将 缓冲 区 的 信息 打包 成 消息 ; 操作 系统 在 信箱 区 构造 一 个 指针 指向 缓冲 区 中 的 信息 ; 当 消 息 被 接收 
时 ， 操 作 系 统 只 拷贝 指针 ， 而 不 是 拷贝 整个 消息 到 接收 方 的 地 址 空间 ， 因 此 接收 方 可 以 引用 发 送 方 地 址 空 
间 中 的 信息 。 只 要 缓冲 中 的 信息 没有 改变 ， 双 方 都 可 以 互 不 干扰 地 读 取 其 中 的 信息 。 然 而 ， 如 果 任 一 方 试 


图 重 写 信息 ， 那 么 就 需要 操作 系统 干涉 。 操 作 系 统 会 从 发 送 方 的 缓冲 区 中 拷贝 信息 到 接收 方 地 址 空间 中 的 . 


私有 部 分 ， 因 而 双方 都 各 有 一 个 消息 的 拷贝 ， 任 一 方 的 写 操作 就 不 会 影响 到 对 方 了 。 


9.4 小 结 


在 最 高 层次 上 ， 描 述 被 分 成 大 块 ， 并 呈现 出 完全 不 同 的 感觉 ， 但 是 事实 是 许多 相同 的 概念 出 现在 最 低 

和 最 高 层次 上 。 
一 一 Douglas R. Hofstadter, GOdel, Escher, Bach: An Eternal Golden Band 

如 Hofstadter 所 观察 到 的 ， 许 多 复杂 的 系统 对 问题 都 有 递归 的 解决 方法 ， 这 也 适用 于 同步 。 信 和 号 量 为 
完成 同步 提供 了 基本 的 机 制 ， 尽 管用 它 来 解决 复杂 同步 问题 比较 困难 。 信 号 量 的 可 替代 原 语 包括 同时 也 操 
作 和 事件 。 这 些 机 制 是 信号 量 的 抽象 并 因此 受到 了 许多 同样 的 批评 。 管 程 是 用 来 完成 信息 共享 和 同步 的 高 
级 原 语 ， 管 程 有 一 个 庞大 的 支持 者 阵营 ， 但 是 由 于 实现 复杂 ， 管 程 并 没 出 现在 许多 现代 操作 系统 中 。 昌 然 
如 此 ， 许 多 有 才智 的 设计 师 还 是 使 用 了 原始 的 Dijkstra 信号 量 。 

进程 间 通 信也 是 对 同步 的 抽象 ， 这 种 同步 机 制 也 能 够 在 相互 协同 的 进程 间 传 送信 息 。IPC 机 制 能 够 在 
进程 间 传 送 消 息 ， 消 息 是 一 个 信息 块 ， 它 从 一 个 进程 的 地 址 空间 间接 拷贝 到 另 一 个 进程 中 ， 发 送 方 和 接收 
方 在 消息 的 格式 上 要 达成 一 致 。 发 送 操作 可 能 是 同步 的 或 异步 的 ， 前 者 可 使 发 送 方 与 接收 方 的 操作 同步 。 
接收 操作 可 以 是 阻塞 的 或 非 阻 塞 的 ， 在 接收 方 进程 先 于 相应 的 发 送 之 前 执行 接收 的 情况 下 ， 阻 塞 接收 方式 
使 得 接收 进程 可 与 发 送 进程 进行 同步 。UNIX 系统 中 的 管道 类 似 于 信箱 。 

本 章 结束 了 同步 的 讨论 ， 下 一 章 将 开始 学 习 死 锁 的 基本 概念 ， 尤 其 是 在 资源 管理 器 所 使 用 的 抽象 层 
面 上 。 


9.5 习题 


1. 假设 进程 po 和 pi 共享 资源 V, E p 和 pz 共享 资源 Vo, AE p 和 ps 共享 资源 V1; 另外， 
进程 po. po 和 pi 并 发 运行 。 编 写 一 个 代码 段 (类 似 于 本 章 的 图 例 )， 说 明 如 何 使 用 管 程 来 协同 访 
问 资源 Vo. Vy 和 V，,， 从 而 避免 临界 区 问题 的 发 生 。 

2. 假设 进程 po 同时 使 用 变量 Vo 和 Vi， 进程 pi 同时 使 用 变量 Vi 和 V, W p 同时 使 用 变量 V 
和 Vos MELEE po. po 和 pi 并 发 运行 。 编 写 一 个 代码 段 ， 使 用 信号 量 操作 来 协同 访问 八 量 Vo, 
Vi 和 V，， 从 而 避免 临界 区 问题 的 发 生 。 

3. 构造 一 个 实现 信号 量 的 管 程 ， 这 可 用 来 论证 管 程 能 够 用 于 任何 使 用 信号 量 的 地 方 。 

4. 假定 你 创建 了 一 个 实现 管 程 的 操作 系统 设施 ， 但 是 并 不 是 条 件 变 量 。 展 示 一 下 如 何 使 用 Dijkstra 信 
号 量 来 实现 条 件 变量 。 

5. 使 用 POSIX 信号 量 来 为 上 题 建立 一 个 伪 代 码 解决 方案 。 

6. 使 用 Windows 同步 原 语 来 为 习题 4 建立 一 个 伪 代 码 解决 方案 。 





~ 
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7. 理发 师 睡 觉 问题 。 假 设 一 个 理发 店 中 有 一 个 私有 的 房间 ， 里 面 有 一 把 理发 用 的 椅子 ;一 个 带 推拉 
门 的 等 候 室 ， 里 面 有 N 把 椅子 (参见 第 8 章 中 图 8-26)。 如 果 理 发 师 在 忙 ， 那 么 私有 房间 的 门 是 关 
闭 的 ， 此 时 到 达 的 顾客 就 坐 在 等 候 室 中 的 一 把 空 椅子 上 等 待 ， 如 果 等 待 室 也 坐 满 了 ， 那 么 再 到 达 
的 顾客 会 不 理发 就 离开 ; 如 果 没 有 顾客 在 理发 ， 那 么 理发 师 就 坐 在 理发 用 的 椅子 上 睡觉 ， 同 时 把 
私有 房间 的 门 开 着 ; 如 果 理 发 师 在 睡觉 ， 到 来 的 顾客 可 以 叫 醒 理 发 师 ， 并 开始 理发 。 编 写 一 个 管 
程 来 协同 理发 师 和 顾客 的 行为 。 

8. 举 出 一 个 并 发 应 用 进程 的 例子 ， 其 中 发 送 者 进程 能 够 使 用 异步 操作 ， 而 不 是 同步 的 send 操作 。 再 

， 提 出 另 一 种 情形 ， 发 送 方 应 该 使 用 同步 的 send 操作 来 保证 应 用 进程 的 正确 性 。 

9. 解释 一 下 为 什么 使 用 非 阻 塞 消 息 接收 操作 的 进程 ， 比 使 用 阻塞 消息 接收 操作 的 进程 执行 的 时 间 开 销 
要 少 。 同 时 解释 一 下 为 什么 这 种 时 间 开 销 小 的 程序 构造 起 来 比较 复杂 。 

10. 程序 员 调 度 的 线程 包 中 ， 人 允许 程序 员 控 制 什么 时 候 线 程 被 执行 ， 以 及 什么 时 候 它 必须 等 待 。 通 过 
调用 线程 包 (由 某 个 线程 执行 ) 允许 程序 员 调度 其 他 的 线程 。 解 释 一 下 这 种 控制 机 制 能 如 何 被 用 
于 模拟 管 程 中 用 于 线程 同步 的 条 件 变量 的 行为 。 

11. Mach 和 POSIX 中 的 C 线程 库 中 都 结合 有 线程 生成 操作 ， 用 来 在 一 个 进程 的 地 址 空间 中 创建 一 个 
新 的 线程 〈 第 2 章 中 有 关于 C 线程 的 例子 )。 阅 读 每 个 库 中 的 文档 ， 并 将 线程 生成 操作 与 UNIX 
中 的 fork 操作 进行 比较 。 解 释 一 下 ， 当 一 个 子 线程 结束 时 父 线程 是 如 何 同 步 的 。 

12. 在 UNIX 环境 中 构造 一 个 CAC++ 程序 ， 使 用 梯形 规则 (trapezoidal rule) 在 [0，2] 间 隔 内 ， 计 算 
下 式 的 近似 积分 值 : 


f (x) = 1/ C241) 


这 种 计算 积分 的 近似 方法 称 为 数值 化 积分 (numerical integration), Arb r 轴 等 分 成 n RERE 
分 的 值 。 如 果 r 和 x;+1 是 这 种 分 段 的 两 个 端点 ,那么 考虑 由 直线 f(x;) 到 f (221), HR 
有 (Xi+1) 到 non BR zB. Rx; 到 f(x;) 所 形成 的 梯形 。 因 为 直线 f(z) 到 了 (Cr) 
是 函数 的 近似 值 ， 所 以 梯形 是 对 应 积分 的 近似 值 。 通 过 计算 [0, 2] 间隔 中 ”个 小 梯形 的 和 来 计 
算 该 区 间 的 积分 。 在 你 构造 的 方案 中 ， 请 通过 N 个 单独 的 工作 进程 来 计算 ”个 小 恒 形 的 面积 。 控 
制 进程 应 该 使 用 UNIX 系统 调用 fork () 和 exec (), 来 生成 N 个 工作 进程 。 应 该 有 一 个 管道 ， 
用 于 N 个 工作 进程 发 送 结果 到 控制 进程 ， 以 及 N 个 管道 ， 由 控制 进程 使 用 它们 分 别 分 配 一 个 梯 
形 给 一 个 工作 进程 。 只 要 一 个 工作 进程 准备 计算 另 一 个 梯形 的 面积 ， 它 就 向 共享 的 “输入 ”管道 
中 发 送 结果 给 控制 进程 。 当 控制 进程 从 工作 进程 接收 到 所 有 的 数值 ， 就 进行 求 和 ， 并 打印 结果 以 
及 获得 结果 所 花 的 时 间 (其 中 忽略 建立 进程 和 管道 的 时 间 )。 实 验 中 ，N 分 别 取 1 一 8 之 间 的 值 ， 
n = 64 个 梯形 ; 使 用 getTime () 例 程 (参见 第 1 章 中 的 习题 ) 获取 时 间 ， 从 而 能 够 计算 代码 处 
理 所 用 的 时 间 。 在 求 梯形 面积 的 过 程 中 ， 包 括 一 个 次 数 合 适 的 for 循环 ， 从 而 能 够 估算 完成 计算 
的 时 间 。 在 坐标 图 中 ， 近 似 地 表示 出 N 的 值 与 所 用 时 间 的 关系 。 

13. 使 用 本 机 的 线程 库 〈C BK POSIX AY) 来 解决 前 一 题 中 的 积分 问题 。 请 阅读 你 使 用 的 操作 系统 上 的 
线程 包 的 联机 文档 ， 你 会 发 现 ， 线 程 原 语 十 分 相似 于 2.3 节 引 入 的 进程 原 语 。 

14. 后 继 松 驰 (successive overrelaxation , SOR) 是 解决 n x n 的 线性 方程 系统 4z = 56 的 一 种 方法 。 
给 定 系数 矩阵 A， 右 边 的 向 量 b»5， 以 及 向 量 x 的 一 个 初始 估计 值 ， 使 用 算法 (EF a GAs). A 
Alb) 重新 计算 每 个 x; 的 值 。 首 先 写 出 x 个 方程 如 下 : 


, 
aj1£1 + aj2£2 ++ + ayy, = b1 


azn X1 tand t+ + Arpt, = b2 


an1 T1 + an2 T2 Hoet Annin 一 bn 
使 用 第 i 个 方程 来 计算 zx; 的 式 子 如 下 : 


Ti= (b; ani antr antn) /as 
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现在 可 以 通过 第 i 个 进程 来 计算 x;， 从 而 在 一 个 支持 ”个 进程 的 系统 中 实现 SOR。 使 用 UNIX 的 
管道 调用 来 实现 SOR 方案 [提示 : 实验 11.1 解决 了 相同 的 问题 ， 但 它 是 使 用 共享 内 存 来 解决 的 ， 
而 不 是 管道 。 请 浏览 有 关 管 道中 使 用 的 解决 方案 ] 。 

15. 编写 一 个 C/C++ 程序 此 ， 它 使 用 户 可 以 并 发 执行 两 个 交互 的 会 话 。 程 序 vt 要 支持 两 个 会 话 ， 应 
该 在 传递 键盘 输入 到 目标 程序 之 前 ， 对 键盘 输入 进行 “过 滤 "， 并 为 每 个 程序 保持 一 个 虚拟 显示 
器 ， 只 要 用 户 与 一 特定 的 程序 交互 ， 通 过 虚拟 显示 器 就 可 以 写 人 物理 的 显示 器 。 你 必须 在 物理 显 
示 器 上 实现 一 个 时 分 复 用 的 虚拟 显示 ， 因 而 用 户 在 任 一 时 间 内 将 总 是 只 看 见 一 个 虚拟 显示 器 ， 但 
不 会 两 个 都 看 见 。 可 见 的 显示 器 表示 活动 的 程序 ， 不 可 见 的 显示 器 表示 休眠 的 程序 。 如 果 用 户 输 
入 ， 你 的 键盘 例 程 将 会 把 输入 送 到 活动 的 程序 中 。 当 用 户 输入 “ESCAPE”+ “C”， 程 序 应 该 使 
活动 程序 休眠 ， 并 让 原 休 眼 程序 活动 。 这 个 切换 应 该 改变 物理 显示 器 ， 让 它 表现 新 的 活动 程序 的 
虚拟 显示 。 你 利用 “ESCAPE”+ “Q” 序 列 来 结束 你 的 程序 。 你 可 以 假设 你 不 需要 传送 “ES- 
CAPE 序列 ”到 任 一 shell。 当 程序 vt 开始 执行 时 ， 在 每 个 虚拟 终端 运行 一 个 shell。 如 果 你 已 经 解 
决 了 第 2 章 中 的 实验 练习 ， 使 用 那个 程序 中 的 shell 比 使 用 像 sh 这 样 产品 级 的 shd BARES, 


实验 9.1: 使 用 管道 


| _ 这 个 练习 可 以 在 任何 UNIX 或 Windows 系统 上 实现 。 | 

编写 一 个 多 进程 程序 ， 用 管道 的 方式 来 管理 信息 。 第 一 个 进程 称 为 源 进程 ， 是 信息 的 源 ， 它 使 用 文件 
接口 来 从 文件 中 读 取信 息 ， 然 后 将 信息 写 到 无 名 管道 中 去 。 第 二 个 进程 称 为 过 滤 进 程 ， 通 过 管道 从 源 进程 
中 读 取 信息 ， 执 行 简 化 的 过 滤 步 骤 (如 将 大 写字 母 转换 成 小 写字 母 ， 将 小 写字 母 转换 成 大 写字 母 )， 然 后 
将 数据 写 到 有 名 管道 中 。 有 名 管道 用 来 在 过 滤 进 程 和 称 为 接收 进程 的 第 三 个 进程 间 进行 通信 。 接 收 进程 读 
取 有 名 管道 中 从 过 滤 进 程 来 的 信息 ， 然 后 将 信息 写 到 第 二 个 文件 中 ， 如 图 9-19 所 示 。 当 过 滤 进 程 有 输出 
信息 可 以 传送 时 ， 要 确保 它 不 会 在 输入 上 阻塞 。 











图 9-19 源 进程 、 过 滤 进 程 和 接收 进程 
注 : 对 于 这 个 练习 ， 你 可 以 使 用 有 名 管道 和 无 名 管道 来 在 不 同 的 地 址 空间 之 间 传 递 信 息 。 


这 个 练习 有 趣 的 一 些 方面 是 : 
1) 它 使 用 管道 作为 通信 机 制 来 在 不 同 的 地 址 空间 之 间 传 递 数据 。 
2) .中间 的 过 滤 程 序 必须 从 无 名 管道 中 读 取 信息 ， 并 异步 地 将 结果 写 到 有 名 管道 中 。 


背景 


UNIX 中 的 无 名 管道 
管道 是 单 处 理 机 UNIX 系统 上 主要 的 进程 间 通信 机 制 (在 多 处 理 机 和 网 络 BSD UNIX 上 增加 了 套 接 
字 ， 见 第 15 章 )。 上 默认 情况 下 ,管道 使 用 了 异步 send () 和 阻塞 receive () 操作 。 阻 塞 receive () 操作 
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可 以 转化 为 非 阻 塞 receive () 操作 ( 见 下 面 的 详细 讨论 ) 。 管 道 是 FIFO 缓冲 ， 它 是 用 类 似 于 文件 VOR 
OM API 来 设计 的 。 管 道 在 任何 给 定时 间 可 以 包含 系统 定义 的 最 大 数目 的 字 节 数 一 一 通常 是 4KB。 如 
图 9-20 所 示 ， 进 程 可 以 通过 将 信息 写 到 管道 的 一 端 来 发 送信 息 ， 并 且 另 一 个 进程 可 以 从 管道 的 另 一 端 进行 
读 取 来 接收 信息 。 


Po 的 地 址 空间 有 的 地 址 空间 


共享 的 信息 信息 拷贝 


write(pipe[1], =); read (pipe [01); 


系统 调用 接口 





. 图 9-20 通过 UNIX 管道 的 信息 流 
注 : 管道 是 可 读 写 的 内 核 缓冲 ， 但 是 没有 共享 的 地 址 空间 ， 缓 冲 接 口 和 UNIX 字 节 流 文件 接口 是 相同 的 。 一 旦 
创建 了 管道 ， 可 用 文件 1/O 操作 来 进行 读 写 。 


管道 在 内 核 中 是 用 文件 描述 表 来 表示 的 。 当 一 个 进程 创建 一 个 管道 时 ， 它 使 用 如 下 形式 的 系统 调用 : 


int pipeID[2]; 


pipe(pipeID); 

内 核 将 管道 作为 具有 两 个 文件 标识 符 的 内 核 FIFO 数据 结构 来 对 待 。 在 这 个 例子 的 代码 中 ，pipeID 
[0] 是 一 个 指向 管道 读 取 端 的 文件 指针 (进程 的 打开 文件 表 的 索引 )，pipe ID [1] 是 一 个 指向 管道 写 信 端 
的 文件 指针 。 

为 了 使 两 个 或 更 多 的 进程 使 用 无 名 管道 来 进行 进程 间 通 信 ， 进 程 的 公共 祖先 必须 在 创建 进程 之 前 创建 
管道 。 因 为 UNIX fork () 命令 创建 的 子 进程 具有 父 进 程 打开 文件 表 的 一 份 拷贝 (也 就 是 说 ， 子 进程 对 父 
进程 已 经 打开 的 所 有 文件 有 访问 权 )， 每 个 子 进程 会 继承 父 进程 创建 的 管道 。 为 了 使 用 管道 ， 仅 需要 读 写 
合适 的 文件 描述 表 。 

例如 ， 假 定 父 进程 创建 了 一 个 管道 ， 它 可 以 使 用 如 下 的 代码 段 来 创建 子 进 程 并 与 子 进程 通信 ， 


pipe(pipeID); 
if(fork() == 0) { /* The child process */ 


read(pipeID[0], childBuf, len); 
/* process the message in childBuf */ 


else { /* The parent process */ 


w 


/* Send a message to the child */ 
write(pipeID[1], msgToChild, len); 


} 


下 面 的 代码 段 解释 了 在 UNIX 中 如 何 使 用 管道 来 实现 图 2-8 中 并 发 进程 的 例子 : 
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int A_to_B[2], B_to_A[2]; 
main(){ 
pipe(A_to_B); 
pipe(B_to_A); : 
if (fork()==0) { /* This is the first child process */ 
execve(“prog A.out”, ...)7 
exit(1); /* Error-terminate the child */ 
} 
if (fork()==0) { /* This is the second child process */ 
execve(“prog B.out”, ...); 
exit(1); /* Error-terminate the child */ 


} 

/* This is the parent process code */ 
wait( ...)3 ` 
wait( ...); 

} 

proc_A(){ 


while (TRUE) { 
<compute Al>; 
write(A to B{1], x, sizeof(int)); 
/* Use this pipe to send info */ 
<compute A2>; 
read(B to A{0], y, sizeof(int)); 
/* Use this pipe to get info */ 
} 


proc_B(){ 
while (TRUE) { 
read(A_to_B[0], x, sizeof(int)); 
/* Use this pipe to get info */ 
<compute B1>; 
write(B to A[1], y, sizeof(int)); 
/* Use this pipe to send info */ 
<compute B2>; . 
} 
} 


UNIX 中 的 非 阻塞 读 操作 
对 任何 文件 ， 管 道 的 读 取 端 、 文 件 描述 表 或 套 接 字 可 以 用 UNIX 中 的 ioctl O 调用 来 配置 成 非 阻塞 
语义 。 在 对 描述 表 进 行 了 ioctl O 调用 之 后 ， 对 流 进行 的 read O 调用 会 立即 返回 ， 并 在 4.3 BSD 中 将 
错误 代码 设置 为 EWOULDBLOCK (或 在 POSIX 中 为 EAGAIN) 。 如 果 read () 返回 值 0， 表 示 它 并 没有 从 缓冲 中 
读 取 任 何 信息 。 因 此 ， 程 序 可 以 对 返回 的 长 度 值 是 否 为 0 进行 检查 来 判断 读 取 操作 是 否 成 功 。 下 面 的 代码 
段 解释 了 如 何 使 用 ioct1 () 来 将 管道 读 取 端 的 阻塞 行为 改变 为 非 阻塞 行为 ， 
#include <sys/ioctl.h> 
int errno; /* For nonblocking read flag */ 
main() { 
int pipeID(2]; 
pipe(piperD); 


/* Switch the read end of the pipe to the nonblocking mode */ 
ioctl(pipeID[0], FIONBIO, &on); 


while(...) { 
/* Poll the read end of the pipe */ 

read(pipeID[0], buffer, BUFLEN); 

if (errno {=EWOULDBLOCK) { 

/* Incoming info available from the pipe-process it */ 

} else { 

/* Check the pipe for input again later-do other things */ 


} 
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Windows 中 的 无 名 管道 
Windows 也 支持 UNIX 类 型 的 无 名 管道 ， 一 旦 创建 了 管道 ，ReadFile () MiWriteFile O 可 用 来 读 写 
管道 的 两 端 。 l 
可 以 使 用 如 下 函数 来 创建 管道 ; 


BOOL CreatePipe( 
PHANDLE hReadPipe, // address of variable for read handle 
PHANDLE hWritePipe, 
// address of variable for write handle 
LPSECURITY_ATTRIBUTES lpPipeAttributes, 
// pointer to security attributes 
DWORD nSize // number of bytes reserved for pipe 
3 


你 必须 为 读 写 句柄 (hReadPipe 和 hWritePipe) 分 配 空间 ， 并 传递 结果 指针 ， 提 供 安 全 属性 并 提供 一 
个 建议 的 字 节 数 nSize 用 来 实现 管道 (操作 系统 使 用 这 些 值 来 作为 参数 ， 以 确定 使 用 多 少 存储 空间 来 实现 
管道 )。 将 nSize 设置 为 0 也 是 可 接受 的 ， 意 味 着 Windows 将 使 用 一 个 默认 的 管道 大 小 值 。 

如 果 试 图 读 一 个 空 管道 ，ReadFile () 调用 会 阻塞 调用 线程 直到 管道 中 有 数据 92。 如 果 试 图 去 写 一 个 
满 的 管道 ，writeFile () 调用 会 阻塞 调用 线程 直到 管道 有 空间 可 以 将 字符 写 人 。 因 为 管道 本 质 上 是 一 个 
操作 系统 存储 缓冲 《与 实际 的 文件 不 同 ) Windows 对 管道 并 不 支持 seek 操作 。 

使 用 管道 的 一 个 挑战 是 如 何 对 它们 进行 设置 ， 使 得 多 个 进程 可 以 使 用 它们 。 第 一 个 问题 是 ， 一 个 进程 
创建 了 无 名 管道 ， 读 写 句柄 在 创建 进程 的 地 址 空间 中 ， 另 一 个 进程 如 何 从 创建 进程 中 得 到 文件 句柄 ? 用 于 
在 进程 闻 传 递 句 柄 的 标准 技术 是 使 用 全 局 名 字 (无 名 管道 没有 名 字 ) 、 句 柄 继承 和 句柄 复制 。 

下 面 是 Hart [1997] 中 使 用 的 技术 ， 其 中 使 用 管道 的 进程 是 兄弟 进程 ， 由 它们 的 父 进程 创建 管道 并 将 
句柄 重 定向 到 stdin 和 stdout: 


int main(int argc, char *argv[]}) { 
HANDLE readPipe, writePipe; 
SECURITY_ATTRIBUTES pipeSA; 
STARTUPINFO srcStartInfo, sinkStartinfo; 


// Create the pipe 
pipeSA.nLength = sizeof (SECURITY_ATTRIBUTES)}; 
pipeSA.lpSecurityDescriptor = NULL; 
pipeSA.bInheritHandle = TRUE; 
if(!CreatePipe(&readPipe, &writePipe, &pipeSA, 0)) { 
fprintf(stderr, “...", GetLastError()); 
ExitProcess(1); 
} 
// Create process to write the process 
// Make handles inheritable 
print£("“Main: Creating producer process\n"); 
ZeroMemory(&pStartInfo, sizeof(STARTUPINFO) ); 


srcStartiInfo.cb = sizeof(STARTUPINFO); 
srcStartinfo.hStdiInput = GetStdHandle(STD_INPUT_HANDLE); 
srcStartinfo.hStdOutput = pfWritePipe; 
srceStartinfo.hStdError = GetStdHandle(STD_ERROR_HANDLE); 
srceStartinfo.dwFlags = STARTF_USESTDHANDLES; 
if(!CreateProcess(..., &srceStartiInfo, ...)){ 
fprintf(stderr, “...", GetLastError()); 
ExitProcess(1); ' 
} 


// Create process to read the pipe 

// Make handles inheritable 
zZeroMemory(&cStartIinfo, sizeof (STARTUPINFO) ); 
sinkStartInfo.cb = sizeof (STARTUPINFO); 








O ”尽管 此 处 还 未 介绍 到 交 迁 IMD， 但 要 引起 注意 的 是 ，Windows FRX HES Hid PNAC 1/0, 
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sinkStartInfo.hStdInput = fcReadPipe; 
sinkStartInfo.hStdOutput = GetStdHandle(STD_OUTPUT_HANDLE) ; 
sinkStartInfo.hStdError = GetStdHandle(STD_ERROR_HANDLE) ; 
sinkStartInfo.dwFlags = STARTF_USESTDHANDLES; 
if(!CreateProcess(..., &sinkStartInfo, ...)){ 
fprintf(stderr, “...”, GetLastError()); 
ExitProcess(1); 


} 
// Close pipe handles 
CloseHandle(readPipe) ; 
CloseHandle(writePipe); 


} 


被 创建 的 进程 可 使 用 任何 的 1/0 函数 来 读 写 stdin 和 stdout, 
Windows 中 的 有 名 管道 
在 UNIX 和 Windows 中 ， 有 名 管道 可 用 来 在 不 相关 的 进程 间 进 行 通信 。 下 面 的 讨论 解释 了 有 名 管道 是 
如 何在 Windows 中 工作 的 。 
有 名 管道 可 用 来 在 不 同 的 地 址 空间 之 间 进 行 通 信 ， 它 是 特地 为 服务 器 通过 网 络 与 多 个 客户 进行 交互 而 
设计 的 。 有 名 管道 与 普通 的 管道 有 以 下 几 个 重要 的 区 别 : 
E 有 名 管道 可 以 有 几 个 实例 ， 所 有 的 实例 有 相同 的 参数 ， 它 们 为 同一 管道 的 几 个 拷贝 。 然 而 ， 每 个 实 
例 可 被 不 同 的 进程 对 使 用 。 例 如 ， 服 务 器 可 使 用 有 名 管道 来 建立 有 名 管道 类 ， 并 且 连 接 到 服务 器 的 
每 个 客户 使 用 有 名 管道 的 一 个 新 的 实例 。 
a 有 名 管道 是 双向 的 ， 所 以 ， 一 个 进程 可 以 读 写 有 名 管道 的 每 一 端 。 
n 有 名 管道 可 以 扩展 到 网 络 。 
因为 采用 多 个 实例 的 动机 是 客户 -服务 器 应 用 情形 ， 一 个 进程 (服务 器 ) 创建 有 名 管道 ， 然 后 客户 使 
用 CreateFile() 调用 ,使 用 管道 名 作为 参数 来 打开 有 名 管道 。 


HANDLE CreateNamedPipe( 


LPCTSTR lpName, // pointer to pipe name 

DWORD dwOpenMode, // pipe open mode 

DWORD dwPipeMode, // pipe-specific modes 

DWORD nMaxInstances, // maximum number of instances 

DWORD nOutBufferSize, // output buffer size, in bytes 
DWORD ninBufferSize, // input buffer size, in bytes 


DWORD nDefaultTimeOut, // time-out time, in millisecs 
LPSECURITY_ATTRIBUTES ipSecurityAttributes 
// pointer to security attributes structure 
Mi 
lpName 参数 是 管道 的 名 字 ， 它 必须 有 \\ . \ pipe \ pipename 的 形式 。dwOpenMode 参数 指定 了 管道 行为 
方式 的 若干 特性 : 对 管道 的 访问 、 交 和 迭 模 式 、 写 直达 模式 和 管道 句柄 的 安全 访问 模式 。 管 道 的 访问 可 以 是 
下 面 的 任何 一 种 : 
里 PIPE ACCESS _ DUPLEX。 在 管道 中 ， 信 息 可 以 进行 双向 传递 。 
m PIPE ACCESS _ INBOUND。 数 据 仅 可 以 通过 有 名 管道 从 客户 流向 服务 器 。 
@ PIPE ACCESS OUTBOUND。 数 据 仅 可 以 通过 有 名 管道 从 服务 器 流向 客户 。 
如 果 设 置 了 FILE _ FLAG “WRITE_ THROUGH 标志 ， 则 对 有 名 管道 的 写 一 一 甚至 通过 网 络 一 一 直到 信息 被 
置 人 接收 机 器 的 缓冲 中 才 会 返回 。FILE FLAG OVERLAPPED 标志 设置 I/O 是 交 迭 的 。 安 全 标志 用 来 指定 保 
护 设置 是 如 何 被 改变 的 。dwPipeMode 参数 指定 操作 的 类 型 、 读 以 及 等 待 模式 。 如 果 管 道 用 来 进行 字 节 流传 
递 ， 类 型 值 为 PIPE_ TYPE _ BYTE。 如 果 管 道 用 来 进行 消息 传递 ， 类 型 值 为 PIPE TYPE MESSAGE。 读 模式 可 
使 用 PIPE _ READMODE _ BYTE 或 PIPE _READMODE MESSAGE 进行 设置 ， 来 接收 字 节 流 或 消息 。 模 式 标志 控制 读 
操作 是 否 为 阻塞 (PIPE _WAIT) 或 非 阻塞 (PIPE_NONRIT) nMaxInstances 参数 指定 了 可 为 这 个 管道 打开 的 
管道 实例 的 最 大 数目 。noutBufferSsize 和 nInBufferSize 参数 分 别 指定 了 管道 的 输出 和 输入 缓冲 尺寸 。 
nDefaultTimeOut 参数 提供 了 一 个 默认 的 超时 值 ， 它 可 以 被 WaitNamedPipe 调用 使 用 。 
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解决 问题 

这 个 练习 需要 将 几 个 进程 和 它们 的 组 件 进 行 适当 组 织 ， 使 得 它们 可 以 一 起 工作 ， 这 需要 一 些 技巧 。 如 
果 不 引进 一 些 其 他 的 技术 使 得 不 同 的 进程 以 不 同 的 速度 操作 ， 很 难 测试 你 的 解决 方案 的 异步 行为 。 如 果 你 
增加 一 些 代码 来 模拟 进程 ， 使 得 它 比 你 实际 编写 的 进程 多 做 大 量 的 工作 ， 这 将 是 十 分 有 帮助 的 。 基 本 思想 
就 是 让 你 的 进程 睡眠 (或 执行 忙 等 待 ) 随机 长 的 时 间 ， 使 得 可 以 将 信息 置 人 管道 。 

在 UNIX 中 ,可 使 用 rand O 函数 调用 来 引入 随机 的 延迟 时 间 。 在 Windows 中 ， 可 以 使 用 C 运行 时 
库 中 类 似 的 函数 。 下 面 是 使 用 这 种 实用 程序 的 Windows 代码 段 ， 如 果 你 在 源 进程 、 过 滤 进 程 和 接收 进程 中 
包括 仿真 工作 ， 这 将 给 你 带 来 一 些 指导 。 


#include <stdlib.h> // srand() & rand({) 
#define P_RAND_SEED 1234 
int main (int argc, char *argv[]) { 


const int delay = 500; 


srand(P_RAND SEED); // Set random# seed 


// Main loop 
while(...) { 


simulatedWork(rand()%delayFactor); // Random delay 


} 


实验 9.2: 精炼 shell 程序 


[| 本 练习 能 够 在 任何 UNIX 系统 中 实现 。 

从 实验 2.1 中 的 shell 程序 人 手 ， 使 之 精炼 ， 使 之 能 处 理 带 有 参数 的 命令 ， 可 以 搜索 PATH 变量 来 找 
到 文件 (使 用 exec () 系统 调用 的 execv () 形式 )， 并 能 够 提供 管理 管道 和 并 发 的 附加 功能 。 与 以 前 的 要 
求 一 样 ， 你 的 shell 程序 应 该 使 用 与 UNIX 的 sh 命令 一 样 的 运行 风格 。 

当 用 户 输入 如 下 的 命令 行 时 : | 

identifier [identifier [identifier]] 
你 的 shell 程序 应 该 根据 PATH 环境 变量 定义 的 目录 次 序 ， 在 UNIX 目录 树 中 查找 一 个 与 第 一 个 identifi- 
er 相同 名 字 的 文件 ， 当 然 第 一 个 identifier 可 能 是 一 个 文件 名 字 , 或 者 是 一 个 完全 路 径 的 名 字 。 你 的 
shell 应 该 去 执行 那个 文件 。 

对 本 实验 练习 ， 请 增加 下 列 功 能 到 shell 程序 中 : 

部 分 A 

实现 修饰 符 “&” 的 功能 。 如 果 命 令 行 的 最 后 一 个 字符 是 “&”， 命 令 程 序 会 与 shell 并 行 执 行 ， 也 就 
是 说 不 要 求 shell 要 等 待 程序 运行 结束 后 才能 运行 。 




















部 分 B 

允许 使 用 符号 “<” 和 “>”， 使 得 标准 的 输入 或 输出 被 重 定向 。 

部 分 C 

一 个 程序 的 标准 输出 可 以 通过 使 用 符号 “|”， 重 定向 为 另 一 个 程序 的 标准 输入 。 
部 分 D 


要 实现 shell 同时 支持 重 定向 、 管 道 ， 以 及 放置 一 个 进程 到 后 台 运 行 的 功能 会 更 为 困难 。 这 部 分 要 求 
你 修改 shell， 使 得 它 可 以 在 一 个 命令 行 中 处 理 上 述 多 种 情况 。 


背景 
本 练习 将 有 助 于 你 深入 理解 UNIX 系统 中 的 文件 标识 符 的 处 理 ， 并 日 能 够 锻炼 你 并 发 编程 的 技巧 和 能 力 
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并 发 进程 

执行 命令 的 通常 情形 是 父 进程 创建 一 个 子 进程 ， 由 子 进程 执行 命令 ， 然 后 父 进程 等 待 直到 子 进程 结束 
(参见 第 2 章 )。 如 果 操 作 符 “&” 用 于 结束 命令 行 ， 那么 shell 程序 将 会 创建 子 进程 ， 让 子 进程 开始 执行 输 
人 的 命令 ， 但 不 让 父 进 程 等 待 子 进程 的 结束 ， 即 父 、 子 进程 并 发 执行 。 子 进程 执行 命令 的 同时 父 进程 打印 
输出 一 个 命令 提示 符 到 stdout 中 ， 并 等 待 用 户 输入 另 一 个 命令 行 。 如 果 用 户 开 始 执行 几 个 命令 ， 每 个 都 
以 “人 ”结束 ， 并 且 如 果 每 个 命令 都 要 花费 相对 长 的 时 间 来 执行 ， 那 么 就 会 有 很 多 进程 在 同时 运行 。 

当 一 个 子 进程 被 创建 ， 并 开始 执行 它 自己 的 程序 时 ， 父 、 子 进程 都 期 望 通过 键盘 从 用 户 得 到 它们 的 
stdin 输入 流 ， 并 且 将 它们 的 stdout 输出 流 写 人 到 字符 终端 显示 器 上 。 注 意 ， 如 果 有 多 个 子 进 程 在 并 发 运 
行 ， 并 都 期 望 通过 键盘 获得 它们 的 stdin 输入 流 ， 那 么 用 户 从 键盘 输入 数据 就 有 可 能 不 知道 是 被 哪 一 个 子 
进程 接收 了 。 类 似 地 ， 如 果 任 一 并 发 进程 写字 符 到 stdout 中 ， 它 们 就 会 被 写 到 当前 指针 所 指向 的 位 置 。 
内 核 并 没有 为 每 个 子 进程 提供 它们 自己 的 键盘 和 终端 (这 与 第 12 章 中 的 虚拟 终端 和 窗口 系统 不 同 ， 它 们 
通过 显 式 的 用 户 指令 控制 复 用 方式 )。 | 

MO 重 定向 

当 一 个 进程 被 创建 时 ， 它 会 有 三 个 默认 的 文件 标识 符 : stdin, stdout 和 stderr, WHM stdin 
中 读 取 ， 那 么 就 会 直接 接收 从 键盘 输入 的 数据 ; 类 似 地 ，stdout 和 stderr 会 映射 到 终端 的 显示 器 。 

只 要 在 输入 命令 时 通过 给 命令 提供 文件 名 参数 ， 并 和 且 在 文件 名 前 面 使 用 字符 “<”， 用 户 就 能 够 重新 定 
X stdin, BBA shell 程序 将 用 指定 的 文件 来 替代 stdin， 这 称 为 “ 重 定向 从 一 个 指定 的 文件 输入 ”。 通 过 在 文 
件 名 参数 前 使 用 字符 “>”， 输 出 也 能 够 实现 重 定向 (对 于 单个 命令 的 执行 来 说 )。 例 如 ， 一 个 如 下 的 命令 : 


we < main.c > program. stats 


可 以 创建 一 个 子 进程 来 执行 wc 命令， 但 在 子 进程 运行 命令 之 前 ，stdin 会 被 重 定向 ， 因 此 该 命令 会 从 文件 
main.c 中 读 取 输入 流 ; 而 且 运 行 命令 的 子 进 程 也 会 重 定向 stdout， 将 把 输出 流 写 入 文件 program. stats H, | 

shell 通过 管理 子 进程 文件 描述 表 来 重 定 向 IMD。 当 一 个 子 进程 创建 时 ， 它 继承 了 父 进程 打开 的 文件 描 
述 表 信息 ， 尤 其 是 继承 了 父 进 程 stdin、stdout 和 stderr， 所 以 继承 了 父 进 程 的 终端 (这 可 以 解释 为 什么 
并 发 进程 会 读 取 相同 的 键盘 和 写 人 相同 的 显示 器 )。 在 子 进程 创建 后 ，shell 可 以 改变 子 进程 使 用 的 stdin、 
stdout 和 stderr 文件 描述 表 ， 从 而 使 子 进程 对 文件 进行 读 写 ， 而 不 再 是 键盘 和 显示 器 。 

每 个 进程 在 内 核 中 都 有 它 自己 的 文件 描述 表 (这 儿 称 为 fileDescriptor, 但 源 代码 中 不 一 定 这 样 称 
呼 )， 第 13 章 的 实验 中 将 进一步 说 明文 件 描述 表 。 当 进程 被 创建 时 ,文件 描述 表 中 的 第 一 个 表 项 一 般 来 说 
指向 键盘 ， 第 二 个 表 项 指向 显示 器 。 在 C 运行 时 环境 和 内 核 中 ， 对 于 符号 “stdin”， 是 与 内 核 表 中 的 
fileDescriptor [0] 项 绑 定 的 ， 而 “stdout” 则 与 fileDescriptor [1] 项 关联 ， “stderr” 对 应 
fileDescriptor [2] 项 。 ` 

”close () 系统 调用 能 够 用 于 关闭 任何 打开 的 文件 ,包括 stdin, stdout 和 stderr。 具 体 实现 时 ， 
dup () 和 open () 系统 调用 总 是 占用 上 次 刚刚 关闭 的 文件 描述 表 中 的 表 项 。 所 以 如 下 的 代码 段 : 

fid = open(foo, O WRONLY | O_CREAT); 

close(1); 

dup(fid); 

close(fid); 

会 保证 创建 一 个 文件 描述 表 fid， 复 制 该 措 述 表 替换 filepescriptor [1] 项 (一般 是 文件 描述 表 中 的 std- 
out 项 ) 的 描述 表 。 结 果 是 如 果 进 程 写 一 个 字符 到 stdout 中 ， 它 们 将 会 被 写 人 到 文件 foo 中 。 这 就 是 
stdin 和 stdout 都 能 重 定向 的 关键 所 在 。 


解决 问题 
对 实验 2.1 中 shell 程序 的 修改 包括 了 相当 多 的 细节 ， 但 是 需要 使 用 这 个 练习 的 背景 部 分 所 解释 的 概 
念 。 你 需要 设计 一 种 方法 来 对 命令 行进 行 解释 ， 使 一 些 特别 的 符号 能 够 被 识别 ， 并 使 得 你 的 shell 采取 相 


应 的 动作 。 因 为 让 代码 处 理 命令 行 中 多 于 一 个 特定 符号 的 情况 是 比较 复杂 的 ， 在 部 分 A 至 C， 着 重 于 解决 
使 用 “&”,“<”,“>” 或 “|”, 但 是 并 不 同时 处 理 一 个 命令 行 中 多 于 一 个 特定 符号 的 情况 。 





第 10 章 Æ 锁 


死 锁 是 发 生 在 一 组 相互 合作 或 竞争 的 线程 或 进程 之 间 的 一 个 问题 。 第 8 章 中 首先 遇 到 过 死 锁 ， 除 非 我 
们 非常 细心 ， 否 则 在 同步 问题 中 是 很 容易 出 现 死 锁 的 。 在 本 章 中 ,将 把 讨论 推广 到 资源 管理 器 所 管理 的 资 
源 中 。 这 个 问题 的 讨论 特别 有 意义 ， 因 为 通常 情况 下 ， 死 锁 发 生 在 两 个 或 多 个 不 同 的 程序 之 间 ， 并 且 不 同 
程序 的 线程 在 同时 执行 。 程 序 可 能 通过 几 个 线程 重复 执行 而 没有 遇 到 死 锁 ， 有 时 由 于 一 些 复杂 的 资源 使 用 
模式 ， 就 会 发 生死 锁 。 有 三 种 自动 的 策略 来 解决 死 锁 问 题 : (1) 预防 ，(2) 避免 ，(3) 检测 和 恢复 ， 同 样 
也 可 以 人 工 处 理 。 本 章 中 使 用 了 一 些 简单 但 是 正式 的 进程 和 资源 模型 ， 介 绍 了 研究 死 锁 问题 的 背景 知识 ， 
然后 考虑 了 在 每 种 策略 中 所 采用 的 方法 。 


10.1 背景 


死 锁 发 生 在 日 常生 活 的 许多 方面 ， 尽 管 人 们 使 用 了 一 些 方 法 来 解决 这 些 问题 ,但 这 些 方法 并 不 易于 在 
软件 中 使 用 。 第 8 章 和 第 9 章 的 死 锁 例子 包括 了 哲学 家 就 餐 问 题 、 睡 觉 的 理发 师 问题 及 其 他 类 似 于 软件 配 
置 的 情况 。 可 能 现实 世界 中 最 著名 的 问题 是 交通 拥塞 时 的 网 格 锁 (gridlock)。 例 如 ， 当 一 个 环绕 街区 的 四 
条 单 向 公路 有 繁忙 的 交通 时 ， 汽 车 试图 穿 过 十 字 路 口 继续 前 进 时 ， 就 会 出 现 网 格 锁 ( 见 图 10-1)。 在 这 个 
例子 中 ， 沿 着 单 向 公路 行驶 的 汽车 流 对 应 于 进程 中 的 线程 ， 每 个 十 字 路 口 对 应 于 共享 资源 。 北 行 的 汽车 流 
拥有 西南 角 的 十 字 路 口 资 源 并 且 需 要 控制 西北 的 十 字 路 口 继续 前 进 ， 然 而 ， 东 行 的 汽车 流 占有 西北 的 十 字 
路 口 并 请 求 东 北 的 十 字 路 口 ， 南 行 的 汽车 流 持 有 东北 的 十 字 路 口 并 且 需 要 东南 的 十 字 路 口 。 西 行 的 汽车 流 
占有 东南 的 十 字 路 口 并 请 求 被 北 行 的 汽车 流 持 有 的 西南 十 字 路 口 ， 这 样 就 形成 了 死 锁 。 





图 10-1 汽车 网 格 锁 
注 : 死 锁 会 发 生 在 现实 世界 的 很 多 情形 中 ， 如 汽车 网 格 锁 ， 繁 忙 市 区 内 的 棋盘 式 街道 上 的 汽车 阻塞 ， 它 发 生 的 
原因 是 每 个 方向 的 汽车 流 占有 一 个 十 字 路 口 ， 但 是 需要 另 一 个 十 字 路 口才 能 继续 前 进 。 


这 种 形式 的 死 锁 的 一 种 解决 方法 是 在 某 一 时 刻 让 一 个 交通 警察 将 汽车 移动 一 定 的 距离 ， 让 出 一 个 十 字 
路 口 ， 使 得 被 阻塞 的 汽车 可 以 继续 前 行 ， 从 而 解除 了 死 锁 。 另 一 种 解决 方法 是 让 一 个 方向 的 汽车 流 倒车 来 
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使 得 空 出 一 个 十 字 路 口 ， 这 也 解除 了 死 锁 。 在 计算 机 软件 中 ， 通 常 没有 类 似 于 让 汽车 移动 一 点 点 的 软件 操 
E, 但 是 让 汽车 倒车 类 似 于 结束 或 剥夺 线程 或 进程 的 运行 。 软 件 中 的 另 一 个 困难 就 是 ， 有 时 不 可 能 区 分 线 
程 是 临时 地 被 阻塞 还 是 永久 性 地 阻塞 死 锁 。 

Dijkstra [1968] 描述 了 一 种 非常 包含 (deadly embrace) 情形 ， 它 发 生 在 两 个 或 多 个 进程 之 间 ， 其 中 每 
个 进程 都 占有 至 少 一 种 资源 ， 同 时 该 资源 被 同 组 的 另 一 个 进程 所 请 求 。 (在 汽车 网 格 锁 中 ， 每 个 十 字 路 口 
是 一 个 资源 ， 汽 车 流 对 应 于 一 个 进程 汽车 流 占 有 一 个 十 字 路 口 并 请 求 另 一 个 十 字 路 口 。) 因而 该 请 
求 从 来 得 不 到 满足 ， 因 为 所 请 求 的 资源 被 另 一 个 阻塞 的 进程 占有 ， 被 阻塞 进程 又 在 等 待 前 面 进程 占有 的 资 
源 。 图 10-2 说 明了 三 个 单线 程 进 程 在 对 三 种 资源 的 请 求 中 ， 出 现 死 锁 的 情形 。 如 果 三 个 进程 执行 下 面 的 
指令 段 ， 可 能 就 会 使 系统 处 于 图 中 所 示 的 情形 。 








进程 1 进程 2 进程 3 

request (resourcel); request (resource2); request (resource3); 
/*Holding res 1*/ /*Holding res 2*/ /*Holding res 3*/ 
request (resource2); request (resource3)} request (resourcel); 


图 中 进程 1 占有 资源 1， 并 且 请 求 资源 2; 进程 2 占有 资源 2， 并 且 请 求 资源 3; 进程 3 占有 资源 3， 
并 且 请 求 资 源 1。 任 一 个 进程 都 不 能 继续 ， 因 为 所 有 的 进程 都 在 等 待 某 一 种 资源 ， 而 该 资源 被 另 一 个 阻塞 
的 进程 所 占有 。 除 非 其 中 的 一 个 进程 检测 到 状况 ,并且 能 够 撤回 对 另 一 资源 的 请 求 ,释放 它 所 占有 的 资 
源 ， 和 否则 没有 一 个 进程 能 运行 。 


现代 操作 系统 支持 线程 作为 计算 的 活动 单元 ， 
每 个 线程 在 进程 的 上 下 文中 运行 。 从 经 典 的 单线 
程 进程 到 多 线程 的 现代 进程 的 发 展 ， 极 大 地 改善 
了 操作 系统 的 设计 ， 使 得 应 用 程序 员 可 以 使 用 不 
同 的 线程 来 实现 一 组 不 同 的 活动 。 例 如 ， 可 以 激 


活 多 个 线程 使 得 在 任何 给 定 的 时 间 面 向 对 象 的 程 


序 有 几 个 活动 的 对 象 。C 程序 员 可 以 创建 多 个 线 一 进程 拥有 资源 

程 来 使 计算 与 1/0 交 先 执行 :一 个 线程 可 以 创建 进程 请 求 资源 

一 个 进行 阻塞 1/O 调用 的 子 线程 ， 原 来 的 线程 可 图 10.2 二 个 死 锁 的 进程 

以 继续 执行 CPU 计算 。 在 一 个 进程 中 ， 两 个 不 同 “= ncn. 

的 计算 部 分 也 可 以 是 同时 活动 的 。 注 : 该 图 解释 了 一 个 三 向 的 死 锁 : 进程 ; 持 有 资源 ;， 但 


是 要 获得 资源 (i+1 mod 3) 后 才能 继续 执行 ， 每 个 进 


在 支持 多 线程 进程 的 系统 中 ， 死 锁 会 变 得 更 微 程 将 永远 地 等 待 所 请 求 的 资源 。 


妙 一 些 。 因 为 像 图 10-2 所 显示 的 一 般 情况 下 ， 即 . 
使 系统 资源 分 配给 了 进程 ， 但 是 是 线程 死 锁 了 。 我 们 来 考虑 死 锁 发 生 的 两 个 不 同情 况 ; 
B 同一 进程 内 线程 间 的 死 锁 。 假 定 进程 定义 了 两 个 不 同 的 锁 ，Li 和 Lz ， 线 程 可 以 使 用 它们 来 同步 对 进 
程 内 变量 的 访问 〈 也 就 是 说 ， 变 量 对 进程 内 的 每 个 线程 来 说 是 全 局 的 ， 但 对 进程 来 说 是 局 部 的 )。 
进程 内 的 一 个 代码 块 使 得 线程 获得 Li ， 然 后 获得 Lz ， 但 是 同一 进程 内 的 另 一 代码 块 使 得 线程 先 获 
得 L。， 然 后 获得 Li。 当 然 ， 这 种 情况 会 使 得 同一 进程 内 的 两 个 线程 死 锁 。 
E 不 同 进程 内 的 线程 间 的 死 锁 。 考 虑 有 两 个 不 同 的 进程 各 和 加 ， 有 一 组 线程 (pl 在 进程 p 中 运 
行 ， 另 一 组 线程 {pz,;| 在 ps 中 运行 。 在 这 种 情况 下 ， 进 程 p 内 的 线程 p WEAR (如 独占 
性 文件 )， 大 约 在 同一 时 间 ， 进 程 pz 内 的 线程 py,, 得 到 资源 RR，。( 如 软盘 驱动 器 )。 后 来 ，p1 内 的 另 
一 个 线程 pi, ,请 求 资源 Rs 并 是 转 入 阻 塞 状态， 其 后 不 久 ，p2,, 请 求 Ri， 这 样 就 形成 了 pi ,和 pp，。 
间 的 死 锁 。 
在 本 章 的 其 余部 分 ， 我 们 将 考虑 最 简单 的 情形 ， 使 得 你 可 以 着 重 于 理解 死 锁 的 关键 概念 。 这 意味 着 本 
章 的 讨论 是 针对 单线 程 进 程 ， 使 用 的 是 经 典 进 程 术语 。 但 是 这 些 概念 也 适用 于 同一 进程 内 线程 间 的 死 锁 和 
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不 同 进程 内 线程 间 的 死 锁 的 情况 。 


资源 管理 器 和 其 他 的 操作 系统 功能 也 会 卷 人 死 锁 情形 。 假 
定 一 个 非常 大 的 应 用 进程 内 的 线程 希望 获得 一 个 磁盘 块 ， 意 味 (eren) 资源 管理 器 
着 它 要 向 磁盘 资源 分 配器 发 出 一 个 请 求 。 当 应 用 进程 运行 时 ， 
假定 存储 管理 器 为 它 分 配 了 几乎 所 有 的 物理 主 存 储 器 。 现 在 假 
定 磁盘 资源 分 配 管理 器 是 一 个 被 交换 出 主 存储 器 的 进程 。 为 了 
满足 磁盘 块 请 求 ， 需 要 主 存储 器 才能 将 磁盘 资源 分 配器 加 载 ， 
aa | 磁盘 块 资源 


但 是 已 经 没有 足够 的 剩余 存储 空间 来 加 载 磁盘 资源 分 配器 。 如 
图 10-3 所 示 ， 应 用 进程 和 磁盘 块 分 配 进程 就 处 于 死 锁 状态 了 。 

在 第 8 章 中 ， 死 锁 是 作为 同步 策略 的 副作用 而 提出 的 。 由 进程 拥有 资源 
于 两 个 进程 都 希望 用 一 致 性 方法 来 更 新 一 对 共享 变量 ， 因 而 它 进程 请 求 资源 
们 使 用 了 锁 标志 位 ， 来 保证 当 一 个 变量 的 值 被 改变 时 ， 另 一 个 
变量 的 值 将 不 会 被 更 新 。 类 似 的 情形 也 经 常 发 生 在 一 组 共享 各 ”图 10-3 ”在 应 用 和 操作 系统 间 的 死 锁 
种 资源 的 进程 间 。 事 实 上 ， 这 就 是 为 什么 资源 被 定义 为 进程 所 E: 死 锁 可 能 发 生 在 任何 两 个 进程 之 间 ， 
需要 的 东西 一 可 消费 的 或 可 重用 的 东西 。 存 储 器 、 磁 带 机 、 无 论 它们 是 否 执行 操作 系统 代码 。 
消息 、 一 个 正 的 信号 量 的 值 、 加 载 到 磁带 机 上 的 一 盘 特定 的 磁带 等 都 是 资源 。 当 一 个 进程 请 求 上 述 任 一 种 实 
体 时 ， 都 可 能 会 被 阻塞 ， 因 此 上 述 任 一 种 资源 都 可 能 是 造成 死 锁 的 因素 。 | 

像 临界 区 一 样 ， 死 锁 是 一 种 全 局 的 而 不 是 局 部 的 情形 。 如 果 单 独 分 析 卷 人 死 锁 的 任 一 线程 的 程序 ， 都 
不 会 发 现 错误 。 问 题 并 不 在 任 一 单个 的 线程 中 ， 而 在 于 一 组 线程 间 的 集体 活动 。 程 序 员 该 如 何 处 理 死 锁 的 
情况 呢 ? 一 个 单独 的 线程 通常 不 能 检测 死 锁 ， 因 为 它 被 阻塞 ， 不 可 能 使 用 处 理 器 干 任何 工作 。 必 须 分 析 共 
享 资源 的 每 个 线程 。 因 为 需要 考虑 多 个 程序 或 线程 ， 死 锁 通常 由 操作 系统 来 处 理 而 不 是 由 程序 员 或 编译 器 
处 理 。 

操作 系统 应 如 何 构造 才能 保证 正确 地 处 理 死 锁 呢 ? 下 面 有 三 种 -一般 的 方法 ， 另 加 一 种 特别 的 方法 ， 

mw 预防 

mS 

mw 检测 与 恢复 

m 人 工 死 锁 管理 〈 特 别 的 方法 ) 


10.1.1 死 锁 预防 


假设 在 关于 进程 使 用 资源 的 方式 上 ， 有 下 列 一 些 条 件 成 立 : 

mar: 一 旦 一 个 进程 被 分 配 一 个 特定 的 资源 ， 它 就 独占 使 用 该 资源 ， 与 此 同时 其 他 的 进程 不 能 使 用 。 

m 占有 并 等 待 : 一 个 进程 可 能 在 占有 一 个 资源 的 同时 又 请 求 另 一 资源 。 

BARS: 这 种 情形 是 指 ， 进 程 p 占有 资源 Ri， 并 同时 请 求 资源 R,; 进程 p HARM R, F 

同时 请 求 资 源 Ri。 也 可 能 有 多 于 两 个 的 进程 卷 人 循环 等 待 。 

BHF: 只 能 通过 进程 的 明确 活动 才能 释放 资源 ， 而 不 能 通过 外 部 授权 剥夺 资源 。 这 种 假设 情况 包 

括 一 个 进程 对 一 种 资源 进行 了 请 求 ， 并 且 该 资源 是 不 可 用 的 ， 那么 进程 也 不 能 撤销 对 它 的 请 求 。 

在 现代 操作 系统 中 ， 几 乎 所 有 的 资源 分 配 策略 中 都 会 发 生 这 些 情形 。 只 有 在 一 组 进程 间 ， 以 上 四 个 条 件 
都 同时 成 立时 ， 死 锁 才 可 能 发 生 ， 即 这 些 条 件 是 死 锁 存在 的 必要 条 件 〈 由 于 它们 可 能 都 成 立 ， 但 系统 中 没有 
死 锁 ， 因 此 它们 的 出 现 不 是 死 锁 存在 的 充分 条 件 )。 死 锁 预 防 策略 就 是 通过 设计 协同 资源 管理 程序 ， 来 破坏 
这 些 条 件 ， 因 而 在 整个 运行 时 间 内 ， 要 保证 至 少 破坏 其 中 一 个 条 件 成 立 。 例 如 ，Windows NT/2000 中 保证 在 
互 太 对 象 间 不 存在 循环 等 待 [Nagar，1997]。 预 防 策略 在 特定 的 系统 或 资源 中 是 容易 实现 的 ， 如 批 处 理 系统 ，; 
但 基本 上 不 可 能 在 其 他 的 一 些 系 统 如 分 时 系统 中 实现 。 预 防 策略 将 在 10.3 节 中 进行 讨论 。 


10.1.2 死 锁 避免 


死 锁 避免 策略 依赖 于 资源 管理 器 预测 满足 各 个 分 配 请 求 的 效果 的 能 力 。 如 果 一 个 请 求 会 导致 可 能 发 生 
死 锁 的 情形 ， 死 锁 避 免 策略 将 拒绝 该 请 求 。 由 于 死 锁 避免 是 一 种 预测 的 方法 ， 因 而 它 依赖 于 有 关 运 行进 程 
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发 生 的 有 关 资 源 活动 的 信息 。 例 如 ， 如 果 一 个 进程 提前 声明 它 将 请 求 的 资源 最 大 数目 一 一 它 的 最 大 需求 
(maximum claim)， 那 么 当 进 程 发 出 特定 资源 请 求 时 ， 死 锁 避 免 是 可 能 的 ， 这 种 策略 将 在 10.4 节 中 讨论 。 
死 锁 避免 是 一 种 保守 的 策略 ， 如 果 有 死 锁 的 潜在 可 能 性 ， 那 么 拒绝 分 配 资源 。 这 种 策略 会 使 资源 得 不 到 充 
分 利用 ， 因 而 在 现代 操作 系统 中 ， 这 种 策略 很 少 被 采用 。 


10.1.3 死 锁 检测 和 恢复 


一 些 系统 设计 成 只 要 有 资源 就 允许 资源 分 配 ， 而 不 进行 特别 的 干预 。 由 系统 定期 或 者 只 要 某 个 事件 发 
生 ， 就 查看 是 否 有 死 锁 的 存在 。 执 行 这 个 方法 的 困难 之 处 在 于 : 要 确定 什么 时 候 执 行 检 测算 法 ， 如 果 它 执 
行 得 很 频繁 ， 只 会 浪费 系统 资源 ; 但 如 果 运 行 得 不 够 频繁 ， 那 么 死 锁 进程 和 系统 资源 会 一 直 被 锁定 ， 直 到 
系统 发 现 为 止 。 出 现 这 个 问题 ， 是 由 于 死 锁 出 现在 没有 事件 发 生 的 情形 中 ， 因 为 没有 例外 事件 的 发 生 ， 从 
而 不 会 激发 检测 算法 的 执行 。 

当 一 个 检测 算法 运行 时 ， 实 现 策略 可 分 成 两 个 阶段 。 首 先是 检测 阶段 ， 系 统 会 查看 当前 是 否 有 死 锁 存 
在 ， 如 果 检 测 到 死 锁 ， 系 统 就 会 进入 恢复 阶段 ， 通 过 剥夺 死 锁 进程 的 资源 来 实现 恢复 。 由 此 恢复 就 意味 着 
非 剥夺 条 件 被 破坏 ， 结 束 选 定 的 进程 ， 那 么 进程 在 死 锁 之 前 完成 的 所 有 工作 都 将 丢失 。 检 测 和 恢复 策略 是 
应 用 最 为 广泛 的 死 锁 策略 。 在 使 用 该 策略 的 情形 中 ， 常 常 通过 人 工 方式 决定 是 否 激 活检 测算 法 一 一 即 当 系 
统 出 现 死机 征兆 时 ， 由 系统 操作 员 激 活检 测算 法 。 死 锁 检测 和 恢复 将 在 10.5 节 中 讨论 。 


10.1.4 人 工 死 锁 管理 


以 往 ， 操 作 系统 设计 者 并 不 在 资源 管理 器 中 采取 策略 来 处 理 死 锁 。 目 前 ， 现 代 操 作 系统 包含 了 对 资源 
(如 信号 量 ) 的 死 锁 预防 和 检测 机 制 。 然 而 ， 有 些 资 源 仍然 没有 采用 任何 死 锁 处 理 机 制 ， 因 为 在 这 些 资源 
上 很 少 发 生死 锁 ， 并 且 解 决 死 锁 代 价 较 大 。 考 虑 到 某 些 特定 的 资源 类 型 死 锁 的 代价 十 分 高 ， 所 以 死 锁 策略 
被 采纳 到 资源 管理 器 中 。 同 时 ， 当 死 锁 在 这 些 系统 中 发 生 时 ， 应 该 由 用 户 或 系统 操作 员 来 检测 死 锁 ( 例 
如 ,将 预期 响应 时 间 与 实际 响应 时 间 相 比较 )。 在 这 种 情况 下， 恢复 可 能 意味 着 要 重启 计算 机 。 


10.2 一 个 系统 死 锁 模型 


我 们 将 通过 使 用 形式 化 的 、 可 表示 系统 部 件 的 资源 分 配 状态 模型 来 研究 死 锁 。 模 型 将 表示 每 个 进程 被 
分 配 了 哪些 资源 。 有 两 种 模型 用 来 表示 资源 分 配 状 态 : 系统 状态 变换 模型 和 进程 资源 图 。 系 统 状态 变换 模 
型 表示 了 系统 在 任何 时 刻 可 能 的 状态 ， 它 的 目标 是 清楚 地 标识 出 两 个 或 多 个 进程 处 于 死 锁 的 状态 。 事 实 
E, 构建 包含 每 个 可 能 状态 的 完全 模型 是 不 切实 际 的 〈 因 为 有 许多 不 同 的 状态 )。 通 过 了 解 状态 变换 模型 
的 特征 ， 你 就 会 明白 这 种 情形 。 这 个 模型 可 用 来 描述 特定 的 资源 分 配 图 ， 然 后 能 识别 出 死 锁 的 状态 。 假 定 
存在 一 个 这 样 的 概念 性 模型 ， 那 么 就 可 以 定义 引起 死 锁 的 准确 特征 ， 然 后 使 用 模型 来 确定 死 锁 避免 、 预 防 
以 及 检测 策略 的 实现 方案 。 

进程 资源 模型 描述 了 各 个 系统 状态 的 细节 : 它 标 识 出 Ca) © 
哪个 进程 已 经 被 分 配 了 特定 的 资源 ， 哪 个 进程 由 于 等 候 资 
源 而 处 于 阻塞 ， 等 等 。 下 一 步 ， 我 们 将 非 正式 地 描述 一 个 
进程 和 资源 的 模型 。 昌 然 有 足够 多 的 细节 说 明 进 程 资源 模 





型 是 如 何 工作 的 ， 但 对 它 的 完全 解释 和 证 明 将 留 到 更 高 级 R ? 

的 死 锁 处 理 中 解决 (AA, Æ [Nutt，1992] 或 [Singhal 

and Shivaratri, 1994] 中 使 用 的 形式 化 方法 )。 一 进程 拥有 资源 
我 们 将 6.7 节 中 介绍 的 资源 模型 和 7.3 节 中 介绍 的 进 进程 请 资源 


程 模型 组 合 在 一 块 进行 说 明 。 设 P 是 一 个 有 个 进程 的 集 、 ar 
合 ，R 是 一 个 有 m 种 不 同 资源 的 集合 ， 其 中 6 是 系统 中 资 。 Wamu TARAR 
源 R; 的 资源 单元 数目 。 图 10-4 中 的 模型 是 图 10-2 中 表示 圆圈 ， 将 m 个 资源 类 型 表示 为 m 个 方 
的 一 个 精炼 。 在 这 幅 图 中 ， 圆 圈 结 点 表示 进程 ， 方 框 结 点 框 。 在 方 框 R 内 的 点 的 个 数 表示 资源 
表示 资源 ， 资 源 结 点 内 的 圆 点 数 表示 资源 单元 数目 co (E j 的 单元 数目 c;。 边 表示 请 求 和 分 配 。 


L3 
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这 个 例子 中 ， 对 每 个 R;， 因 为 在 每 个 方 框 结 点 内 只 有 一 个 圆 点 ， 所 以 cj =1.) 这 个 模型 对 于 分 析 系 统 内 
资源 的 分 配 和 每 个 进程 的 资源 请 求 是 十 分 有 用 的 ， 因 为 它们 是 在 同一 时 刻 出 现 的 ， 所 以 可 以 用 来 描述 系统 
状态 变换 模型 的 一 个 状态 。 

发 生死 锁 是 因为 进程 和 资源 间 复 杂 的 交互 。 进 程 资源 模型 为 这 些 关 系 提供 了 描述 ,但 是 它 并 不 能 表示 
状态 间 的 变迁 。 状 态 变换 模型 着 重 于 状态 间 的 变迁 。 如 上 所 述 ， 进 程 资 源 模型 中 的 每 个 实例 表示 状态 变换 
模型 中 的 一 个 状态 。 在 系统 中 ， 当 进程 请 求 或 释放 资源 时 ， 以 及 操作 系统 为 进程 分 配 资源 时 ， 状 态 都 会 
改变 。 

设 S 是 模型 中 的 一 组 状态 ，! 5} 表示 系统 中 相应 的 状态 (每 个 状态 是 进程 资源 关系 的 一 个 快照 ， 并 
且 它 是 用 进程 资源 模型 的 实例 来 表示 的 )。 初 始 状态 是 so， 它 表示 所 有 资源 都 未 被 分 配 的 情形 。 每 个 状态 
可 考虑 相应 的 进程 资源 模型 来 分 析 。 在 本 节 的 剩余 部 分 ， 我 们 将 着 重 于 状态 变换 模型 。 在 本 章 的 剩余 部 
分 , 在 考察 各 个 死 锁 策略 时 ， 我 们 将 强调 如 何 用 进程 资源 模型 表示 特定 的 状态 的 细节 (预防 策略 并 不 使 用 
状态 定义 来 处 理 死 锁 问题 )。 

考虑 状态 变换 模型 ， 焦 点 集中 在 状态 的 变换 上 。 资 源 被 请 求 、 获 得 以 及 去 配 的 方式 ， 决 定 了 系统 是 否 
会 死 锁 ， 这 种 方式 对 应 于 状态 变换 模型 中 一 系列 变换 的 发 生 。 所 有 其 他 的 进程 活动 因为 与 死 锁 的 研究 无 
关 ， 所 以 在 模型 中 被 忽略 。 

在 一 个 进程 集合 P 中 ， 任 一 进程 p; EP， 可 能 引起 状态 变换 ， 这 取决 于 进程 p 是 否 有 下 列 行为 : 

E 请 求 一 个 资源 (使 用 标号 一) 

加 被 分 配 一 个 资源 (使 用 标号 a) 

E 去 配 一 个 资源 (使 用 标号 di) 

只 要 系统 在 状态 5E S 中 ， 并且 一 个 事件 x; RE (2; 是 x;、a; 或 d; 中 的 一 个 ) ， 系 统 的 状态 就 会 由 于 
事件 x; 的 发 生 ， 而 改变 到 一 个 新 的 状态 xE S 中 。 

由 于 我 们 提炼 模型 是 为 了 表示 系统 状态 的 变换 ， 因 而 我 们 感 
兴趣 的 是 将 系统 从 一 种 状态 变 到 另 一 种 状态 的 一 系列 变换 的 影响 。 C) 
下面 说 明 如 何 使 用 状态 变换 模型 : 如 果 p 不 能 引起 走出 s 的 状态 
变换 ， 进 程 p; 被 阻塞 在 5%。 换 句 话说， 由 于 被 阻塞 的 进程 不 能 引 
起 当前 状态 的 任何 变换 ， 因 而 它 不 能 改变 系统 的 状态 。 在 图 10-5 
H, p 被 阻塞 在 状态 s 中 ， 因 为 从 状态 s 出 来 的 所 有 变换 都 是 由 
其 他 的 进程 所 引起 的 ， 没 有 一 个 是 由 进程 p 所 引起 的 。 任 一 种 变 
换 都 是 由 进程 p 和 zs 所 引起 的 ， 而 不 是 p20 

即使 进程 p; 被 阻塞 在 状态 s 中 ， 其 他 的 进程 仍 可 能 改变 系统 
状态 ， 如 从 5 到 一 个 新 的 状态 %， 从 而 使 其 中 p; 能 够 继续 运行 。 
而 如 果 对 于 状态 s; 后 的 每 种 状态 s。，p; 仍 被 阻塞 在 状态 P, I 
么 进程 p; 在 状态 s 中 已 经 死 锁 。 如 果 任 一 进程 在 状态 s 中 死 锁 ， 
那么 5 就 称 为 死 锁 状 态 。 

如 果 你 在 状态 变换 模型 上 下 文中 考虑 死 锁 ， 那 么 这 个 问题 就 转变 为 检查 图 形 模型 中 路 径 上 的 标签 。 这 
是 一 个 经 典 的 图 论 问题 。 我 们 可 以 使 用 这 个 模型 来 表示 死 锁 ， 图 论 专家 将 给 我 们 一 个 可 以 分 析 状态 变换 模 
型 的 算法 ， 从 而 确定 死 锁 是 否 存在 。( 最 坏 的 情形 是 算法 可 能 太 复杂 并 且 执行 的 时 间 太 多 ， 从 而 是 不 可 行 
的 。)“ 单 个 资源 类 型 ”例子 展示 了 状态 变换 模型 如 何 用 于 一 个 小 的 系统 ， 尽 管 它 并 不 使 用 图 论 算法 。 





图 10-5 进程 p 被 阻塞 的 状态 

注 : 在 这 个 状态 中 ，pj 和 py 可 引起 
状态 变换 ， 但 是 p 不 能 。 所 以 我 
们 说 py 被 阻塞 在 状态 ;; 中 。 





示例 : 单个 资源 类 型 
下 面 考虑 一 个 很 简单 的 系统 ， 其 中 一 个 进程 可 能 请 求 一 种 资源 类 型 和 最 多 两 个 资源 单元 。 例 如 ， 系 统 
在 有 两 台 软 盘 驱 动 器 的 配置 中 支持 一 个 进程 。( 这 种 情形 是 为 了 表示 一 个 状态 变换 模型 的 简单 例子 ， 只 有 
一 个 进程 的 系统 中 当然 是 不 可 能 发 生死 锁 的 。) 假设 进程 一 次 只 允许 请 求 一 个 单元 的 资源 (由 于 系统 中 只 
有 两 个 单元 的 资源 ， 因 而 累计 请 求 的 数目 不 能 超过 两 个 单元 )。 图 10-6 所 示 为 一 个 系统 的 状态 变换 模型 。 
状态 so 表示 进程 既 没 有 占有 也 没有 请 求 任何 单元 数 的 资源 ， 那 么 从 so 开始 的 状态 变换 ， 只 可 能 是 对 资源 
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的 请 求 +-; 该 请 求 会 引起 系统 转 信 状态 4， 表示 进程 还 没有 占有 资源 ， 但 现在 需要 一 个 单元 的 资源 ; WR 
进程 获得 了 一 个 单元 的 资源 ， 那 么 系统 能 够 转 人 状态 ss。 从 sz 开始 就 可 能 有 两 种 变换 ， 或 者 进程 释放 资 
源 ， 因 而 改变 到 状态 s (初始 状态 ) ， 或 者 进程 请 求 资 源 的 第 二 个 单元 ， 因 而 引起 状态 改变 到 3 ， 其 中 进 
程 占有 一 个 资源 单元 ， 并 且 需 要 另 一 个 资源 。 


d 


图 10-6 一 个 进程 的 状态 变换 模型 
注 ; 状态 变换 模型 表示 了 系统 中 的 进程 可 能 发 生 的 活动 ， 每 次 仅 允 许 进程 请 求 一 个 资源 单元 。 


下 面 将 系统 扩展 到 两 个 进程 竞争 两 个 单元 的 单 类 资源 的 情况 ， 并 再 次 假设 进程 每 次 只 允许 请 求 一 个 单 
元 的 资源 〈 由 于 系统 中 只 有 两 个 单元 的 资源 ， 因 而 累计 请 求 的 数目 不 能 超过 两 个 单元 )。 为 了 建立 更 复杂 
的 图 ， 图 10-6 中 的 状态 变换 图 需要 被 复制 ， 并 将 两 份 拷贝 结合 在 一 起 来 表示 两 个 进程 所 有 的 系统 状态 ， 
见 图 10-7。 其 中 的 状态 和 变换 事件 被 重新 标号 ， 以 区 分 两 个 进程 ，s; 是 指 po 在 s; 和 户 在 5 的 状态 。 当 
然 ,“ 交 叉 状 态 ” 的 有 些 状态 是 不 可 能 达到 的 。 例 如 ，s44 将 表示 两 个 进程 都 获得 两 个 单元 数 的 资源 ， 这 是 
不 可 能 的 。 因 此 在 模型 中 已 经 去 除了 一 些 交 叉 状态 。 








图 10-7 两 个 进程 的 状态 图 
注 : 这 幅 图 是 将 po 和 pi 的 状态 结合 在 一 起 而 得 到 的 。 在 po 处 于 so 状态 时 ， 我 们 需要 表示 pi 可 能 的 5 个 状态 ， 
当 po 处 于 sı 时 也 一 样 ， 所 以 会 出 现 “ 状 态 爆 炸 ” 问 题 。 


533 是 一 个 死 锁 状态 ， 其 中 两 个 进程 都 占有 一 个 资源 单元 ， 并 且 又 都 请 求 另 一 个 资源 单元 。 如 果 系统 到 
达 这 种 状态 ， 就 不 会 再 从 中 变换 出 来 ， 两 个 进程 被 死 锁 ,因此 没有 从 s33 可 到 达 的 状态 了 。 
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如 果 继 续 扩展 这 个 模型 ， 使 其 包含 多 于 一 种 的 资源 类 型 ， 我 们 将 必须 扩展 表示 资源 请 求 、 分 配 以 及 去 
配 的 符号 ， 使 那些 符号 可 以 表示 相应 的 事件 、 进 程 ( 下 标 ) 以 及 资源 类 型 (也 许 使 用 上 标 来 表示 资源 类 型 


索引 )。 
E 





10.3 MMA 


10.1 节 中 列 出 了 系统 发 生死 锁 的 四 个 必要 条 件 一 一 互 斥 、 占 有 并 等 待 、 循 环 等 待 以 及 非 剥 夺 ， 并 且 
这 四 个 条 件 同时 成 立 。 死 锁 预 防 策略 就 是 要 保证 其 中 至 少 一 个 条 件 总 是 失败 的 。 由 于 系统 必须 通过 互 斥 保 
证 在 一 个 时 刻 一 个 资源 只 能 被 一 个 进程 所 使 用 ， 因 而 互 斥 是 不 可 避免 的 。 例 如 ， 通 过 一 个 进程 来 执行 一 个 
应 用 程序 ， 并 且 它 请 求 将 一 个 特定 的 磁带 加 载 到 磁带 驱动 器 中 ， 那 么 如 果 人 允许 另 一 进程 来 访问 磁带 驱动 器 
就 没有 意义 了 。 虽 然 系 统 可 能 对 一 些 资 源 违反 互 斥 的 条 件 ， 如 UNIX 中 的 终端 显示 器 ， 但 在 传统 操作 系统 
中 ,不 可 能 对 所 有 的 资源 都 这 样 做 。 死 锁 预 防 策略 必须 集中 针对 其 他 三 个 条 件 来 进行 。 


10.3.1 占有 并 等 待 


如 果 我 们 想 要 破坏 占有 并 等 竺 条件， 就 要 想 出 一 个 办 法 来 阻止 进程 在 持 有 资源 的 同时 请 求 其 他 资源 。 
至 少 有 两 种 方法 可 以 完成 这 个 目标 (1) 当 一 个 进程 被 创建 时 ， 可 以 要 求 它 一 次 请 求 所 有 需要 的 资源 ; 
(2) 要 求 一 个 进程 在 请 求 新 的 资源 之 前 ， 释 放 当 前 它 所 占有 的 所 有 资源 。 后 一 种 方法 有 些 极端 ， 因 为 它 要 
求 当 进程 请 求 增加 任 一 资源 时 ， 必 须 每 次 竞争 所 有 需要 的 资源 。 

在 批 处 理 系统 对 作业 的 操作 中 ， 每 个 作业 都 是 由 一 个 进程 来 完成 的 (参见 第 1 章 )。 由 于 批 处 理 作业 
是 通过 一 个 “作业 文件 ”来 定义 的 ， 其 中 包含 有 针对 作业 的 所 有 系统 命令 ， 因 而 从 外 部 通过 作业 的 控制 说 
明 来 识别 执行 作业 所 需 的 所 有 资源 是 可 能 的 。 当 所 有 的 资源 可 用 时 ， 因 为 作业 或 进程 在 执行 过 程 中 ， 不 再 
请 求 更 多 的 资源 ， 所 以 能 够 把 它 放 人 就 绪 队 列 中 等 待 执行 。 这 种 策略 会 使 获得 的 资源 在 整个 作业 期 间 都 被 
占有 ， 而 对 其 他 作业 是 不 可 用 的 ， 却 只 在 作业 运行 的 一 个 小 阶段 中 被 使 用 。 批 处 理 作业 常常 以 小 时 数 来 运 
行 ， 因 而 ， 这 种 技术 的 资源 利用 率 是 很 低 的 。 一 个 很 直接 的 效果 就 是 资源 变 得 难以 获得 ， 这 意味 着 系统 的 
吞吐 率 与 没有 死 锁 预防 策略 的 系统 相 比 有 很 大 的 下 降 。 在 极端 情况 下 ， 一 个 作业 可 能 会 由 于 资源 不 可 用 而 
BRI. 

在 这 种 策略 的 状态 变换 模型 中 ， 变 换 的 特点 是 : 在 ”的 所 有 资源 请 求 给 乙 分 配 所 需 资 源 
任何 获得 和 释放 事件 之 前 要 进行 所 有 的 资源 请 求 〈 见 图 
10-8)。 如 果 系统 在 状态 s, HABE p; 要 请 求 某 些 资 
W, 那么 必须 请 求 所 有 需要 的 资源 。 由 于 p; 的 请 求 ， 
而 发 生 一 个 变换 进入 新 的 状态 s 对 于 状态 ss ， 系 统 可 o 
能 分 配 p; 请 求 的 资源 而 进入 另 一 个 状态 , 或 者 在 分 配 其 他 进程 的 其 他 动作 C ) 
发 生 之 前 ， 一 些 其 他 的 进程 可 能 会 引起 变换 而 进入 一 个 
新 的 状态 。 图 10-8 ”开始 执行 之 前 请 求 所 有 的 资源 

在 交互 系统 中 ， 并 不 要 求 在 交互 之 前 系统 就 知道 用 È: 当 进程 p 请 求 资源 时 ， 有 一 个 到 某 个 新 状态 a 
户 所 有 的 输入 命令 ， 也 不 可 能 知道 用 户 要 执行 的 所 有 进 的 变换 。 从 状态 ss， 系 统 可 以 为 p 分 配 请 求 的 
程 。 用 户 在 一 个 会 话 的 任 一 时 刻 ， 可 能 会 创建 新 的 进 资源 。 

程 、 结 束 存在 的 进程 、 执 行 产 生 新 进程 的 命令 等 。 在 这 种 环境 中 ， 第 一 种 占有 并 等 待 策 略 并 不 现实 。 而 第 








”二 种 策略 可 用 于 避免 占有 并 等 待 的 条 件 ， 当 每 次 进程 请 求 一 个 新 的 资源 时 ， 它 当前 所 占有 的 所 有 资源 都 转 





人 一 种 静态 的 、 一 致 的 状态 ， 然 后 释放 。 例 如 ， 关 闭 打 开 的 文件 ， 以 及 加 载 的 磁带 反 绕 并 印 载 。 接 下 来 ， 
进程 与 需要 该 资源 的 新 进程 一 道 试图 重新 获得 资源 ， 从 而 防止 了 占有 并 等 待 条 件 的 成 立 。 这 种 方法 为 了 获 
得 新 资源 ， 在 保存 占有 资源 状态 方面 付出 了 很 大 的 开销 ， 同 时 还 容易 导致 资源 不 能 很 好 地 被 利用 ， 以 及 可 
能 发 生 进程 雏 死 现象 。 

同样 ， 在 使 用 第 二 种 策略 的 一 般 状 态 变换 模型 中 ( 见 图 10-9)， 在 任何 获得 和 释放 变换 之 前 ， 必 须 首 
先 有 请 求 变换 的 发 生 。 然 而 ， 这 些 状态 图 比 在 批 处 理 系 统 中 复杂 多 了 ， 因 为 它们 必须 首先 通过 释放 变换 回 
到 进程 的 空闲 状态 。 这 样 做 的 目的 ， 就 是 为 了 满足 一 个 进程 能 动态 地 确定 它 需要 更 多 资源 的 情形 。 
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P RTA ER PP 请 求 所 需 的 所 有 资源 
( ( 分 配 所 需 资源 给 P, 


其 他 进程 的 其 他 活动 


图 10-9 ”请求 更 多 的 资源 之 前 ， 释 放 所 有 占有 的 资源 
注 : 在 这 种 情况 下 ， 进 程 请 求 其 他 的 资源 前 必须 释放 所 占有 的 资源 。 


10.3.2 循环 等 待 


发 生 循环 等 待 的 情形 是 指 : 一 个 有 n 个 进程 的 集合 lal 占有 包含 ”个 不 同 资源 单元 的 资源 集合 
IRI, EPHE p; 占有 资源 单元 Ri ， 同 时 它 又 请 求 集合 中 的 另 一 个 不 同 的 资源 。 换 句 话说 ，* 个 资源 中 
的 每 一 个 资源 单元 都 被 某 个 进程 所 占有 ， 但 每 个 进程 又 请 求 一 个 被 另 一 进程 所 占有 的 、 不 可 用 的 资源 单 
元 。 通 过 资源 与 进程 的 关系 图 ， 可 以 反映 出 循环 等 待 的 情况 ， 因 而 状态 变换 模型 在 这 个 问题 的 研究 中 是 没 
有 用 的 。 

我 们 使 用 一 种 新 的 图 形 表示 来 提供 每 种 状态 的 更 多 描述 细节 ， 然 后 使 用 每 个 状态 的 “微观 模型 ”来 检测 
循环 等 待 条 件 。 假 设 用 方 框 来 表示 资源 类 型 ， 圆 图 来 表示 一 个 进程 ， 边 (jp;，R;) 说 明 进程 p 有 一 个 等 待 
处 理 的 对 资源 单元 R KWR, A (R, p) 意味 着 进程 p 占有 资源 单元 Ro ETAMAN, Æ 10-10 PH 
述 了 循环 等 待 状态 的 细节 情况 ， 通 过 图 中 表示 资源 和 进程 的 结 点 所 构成 的 循环 ， 可 以 明显 地 表现 出 循环 等 待 
的 条 件 。 在 图 形 表 示 中 ， 提 供 了 如 何 防止 循环 等 待 的 启示 ， 即 资源 分 配器 必须 保证 系统 的 状态 图 中 不 能 包含 
有 向 环 图 。( 实 际 情况 比 简单 检测 循环 更 为 复杂 ， 因 为 每 种 资源 可 能 有 多 个 资源 单元 。 在 我 们 考虑 检测 算法 
时 ， 已 经 很 清楚 只 有 当 每 种 资源 类 型 只 有 一 个 资源 单元 时 ， 有 向 环 图 才 表 示 有 循环 等 待 的 发 生 。) 


PEAR 


PRR 





图 10-10 循环 等 待 状态 的 模型 
注 : 在 循环 等 待 状 态 下 ，xn 个 进程 中 的 每 一 个 持 有 一 个 资源 并 请 求 另 一 个 资源 。 在 图 的 模型 表示 中 ， 这 由 图 中 
所 形成 的 环 表现 出 来 。 这 个 环 是 必要 的 ， 但 并 不 是 形成 死 锁 的 充分 条 件 。 


防止 循环 等 待 发 生 的 一 种 技术 是 : 通过 对 系统 中 所 有 的 资源 建立 起 一 个 全 序 (total order) 来 实现 。 例 
如 ， 通 过 使 用 每 个 资源 的 索引 号 来 标示 每 个 资源 ， 那 么 对 于 资源 R Ro e, Rae WRA i<j，, 则 R;<R。 
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假设 进程 已 经 获得 的 所 有 R 满足 R;< R;， 那 么 允许 它 获 得 资源 Ri。 

对 所 有 资源 单元 必须 要 建立 全 序 ， 即 使 资源 单元 类 型 是 可 区 分 的 ， 也 要 对 资源 类 型 建立 全 序 ， 包 括 可 
消费 资源 和 可 重用 资源 。 与 占有 并 等 待 情形 一 样 ， 如 果 一 个 进程 p; 请 求 资源 R;， 对 于 进程 当前 所 占有 的 
资源 Ro, EA Ri< Ri， 那 么 策略 会 要 求 进程 释放 所 有 的 R 后 再 请 求 Ri ， 然 后 再 重新 获得 Re。 这 种 方法 
会 增加 进程 等 待 资源 变 为 可 用 的 时 间 ， 所 以 它 对 进程 的 性 能 会 产生 负面 影响 。 

哲学 家 就 餐 问题 中 的 死 锁 现象 就 可 以 通过 使 用 这 种 全 序 方法 来 预防 。 假 设 我 们 对 所 有 的 叉子 建立 了 一 
个 全 序 关系 ， 现 在 如 果 哲学 家 4 取 叉 子 的 次 序 与 其 他 的 哲学 家 不 同 ， 那 么 他 一 定 会 成 为 “ 左 撤 子 哲学 家 ” 
( 见 图 10-11)。 通 过 让 哲学 家 4 用 相反 的 次 序 取 又 子 ， 就 防止 了 循环 等 待 条 件 的 发 生 ， 从 而 不 会 发 生死 锁 。 

semaphore fork[5]; 

fork[0] = fork{1) = fork(2] = fork{3]} = fork[{4] = 1; 

fork(philosopher, 1, 0); 

fork(philosopher, 1, 1); 

fork(philosopher, 1, 2); 


fork(philosopher, 1, 3); 
fork(philosopher4, 0); 








philosopher(int i){ 
while (TRUE) { 
// Think 
// Bat 
P(fork{i]); /* Pick up left fork */ 
P(fork[itl)); /* Pick up right fork */ 
eat(); 
V(fork[i+1]); 
vV(fork[i]); 
} 
} 
philosopher4(){ 
while (TRUE) { 
// Think 
// Bat 
P(fork[0]); /* Pick up right fork */ 
P(fork[4]); /* Pick up left fork */ 
eat(); 
V(fork[4)); 
V(fork[(0]); 
} 
} 








图 10-11 重新 解决 哲学 家 就 餐 问 题 
注 : 在 这 个 哲学 家 就 餐 问 题 的 解决 方法 中 ， 哲 学 家 4 与 其 他 4 个 哲学 家 的 行为 不 同 。 为 了 与 全 排序 策略 一 致 ， 
她 或 他 先 拿 起 fork [0] 然后 拿 起 fork [4]。 


10.3.3 人 允许 剥夺 


假设 操作 系统 中 规定 : 如 果 某 资源 为 不 可 用 ， 则 人 允许 进程 “收回 ”对 该 资源 的 请 求 。 例 如 ， 系 统 可 能 
这 样 实现 ， 只 要 一 个 进程 请 求 资源 ， 系 统 会 立即 响应 ， 或 
者 进行 资源 分 配 ， 或 者 指明 没有 足够 的 资源 来 满足 请 求 。 
在 资源 为 不 可 用 的 情形 中 ,请求 进程 或 者 轮 询 资源 管理 器 ， 
直到 要 求 的 资源 单元 变 为 可 用 ， 或 者 去 干 其 他 的 工作 。( 这 
种 方法 隐 含 地 假设 进程 还 有 其 他 有 用 的 工作 去 做 ， 且 不 需 
要 指定 的 资源 。 使 用 这 种 策略 ， 要 求 编程 语言 和 范例 中 提 
供 相应 的 支持 。) 图 10-12” 带 有 剥夺 的 状态 图 

允许 进程 去 剥夺 它 的 请 求 一 “收回 请 求 ”的 系统 状 È: 在 允许 剥夺 的 情况 下 ， 进 程 从 不 会 在 请 求 
态 图 ， 与 不 允许 “收回 请 求 ” 的 系统 状态 图 不 同 。 图 10-12 资源 操作 上 被 阻塞 。 相 反 ， 如 果 资 源 请 求 
中 非 正 式 地 描述 了 进程 允许 剥夺 的 情况 下 模型 状态 是 如 何 不 能 满足 的 话 ， 它 返回 到 以 前 的 状态 。 
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改变 的 。 如 果 系 统 状态 为 w， 并 且 进 程 p, 请 求 资源 x,， 那么 系统 会 变换 到 一 个 新 的 状态 ss 现在 由 于 进 
E ps 被 通知 请 求 的 资源 不 可 用 ， 它 通过 一 个 新 变换 w, (wo 意味 着 进程 撤回 请 求 而 引起 变换 ) 回 到 状态 
si， 因 而 系统 现在 回 到 了 进程 六 请 求 新 资源 之 前 的 状态 。 在 这 一 点 ， 或 者 进程 p, 可 能 又 请 求 资源 (又 转 
换 系 统 状态 到 5) ， 或 者 另 一 个 进程 p, 可 能 引起 系统 变换 到 一 个 新 的 状态 wx 中 一 一 例如 通过 释放 资源 。 新 
的 状态 s 可 能 对 进程 p, 更 为 有 利 ， 因 为 它 可 能 允许 p, 获得 请 求 的 资源 ， 而 在 状态 s 中 是 不 可 能 的 。 模 
型 中 表示 的 是 进程 pu 继续 轮 询 资源 管理 器 的 情形 。 

这 种 技术 不 能 认为 是 “完全 剥夺 ”进程 的 资源 〈 如 在 恢复 过 程 中 要 求 的 ) ， 然 而 它 已 足够 防止 死 锁 了 。 
不 幸 的 是 ， 这 种 技术 并 不 一 定 有 效 ， 因 为 系统 会 进入 一 组 状态 中 ， 其 中 一 组 进程 正在 轮 询 的 资源 恰好 被 集 
合 中 的 另 一 些 进 程 所 占有 。 虽 然 该 技术 使 系统 不 在 死 锁 状态 , 但 由 于 这 种 活 锁 (livelock) 现象 的 出 现 ， 也 
不 能 正确 地 运行 。 活 锁 意味 着 进程 集合 引起 状态 的 变换 ， 但 在 一 个 长 时 间 内 ， 任 一 种 变换 都 是 无 效 的 。 


10.4 死 锁 避 免 


类 似 于 死 锁 预防 策略 ， 死 锁 避 免 也 是 一 种 保守 的 资源 分 配方 法 。 资 源 分 配器 控制 状态 的 变换 ， 当 满足 资源 
请 求 后 ， 确 定 不 会 有 死 锁 发 生 时 ， 才 会 把 资源 真正 分 配给 进程 。 策 略 实现 中 要 分 析 预 期 的 状态 一 在 进入 状态 
之 前 ， 要 分 析 是 否 存在 某 一 状态 变换 序列 ， 从 和 欲 进入 的 状态 中 走出 来 ， 保 证 其 中 每 个 进程 都 还 可 以 执行 。 

死 锁 避免 策略 取决 于 有 关 每 个 进程 全 程 需求 资源 的 附加 信息 。 尤 其 当 一 个 进程 创建 时 ， 它 必须 声明 它 
的 最 大 资源 需求 数 (maximum claim) 一 一 进程 对 每 种 资源 类 型 请 求 的 最 大 资源 单元 数 。 如 果 所 请 求 的 资 
源 可 用 ， 那 么 资源 管理 器 会 重视 这 些 请 求 。 必 须 能 够 确定 存在 资源 请 求 、 分 配 以 及 释放 的 序列 ， 即 使 每 个 
进程 都 使 用 了 最 大 需求 资源 数目 的 资源 ， 它 们 最 后 也 都 能 运行 结束 。 

使 用 死 锁 避免 方法 ， 系 统 总 是 会 保持 在 安全 状态 (safe state) 中 。 在 资源 请 求 时 进行 的 分 析 必 须 考虑 
所 有 资源 的 分 配 状 态 ， 以 及 要 满足 进程 请 求 的 最 大 资源 需求 数 的 分 配 的 话 系统 要 保持 的 可 用 资源 数目 。 重 
要 的 是 要 注意 到 状态 分 析 中 ， 并 不 预知 每 个 进程 将 实际 请 求 最 大 资源 需求 数 ， 它 仅仅 是 基于 下 面 的 假定 来 
继续 ， 即 如 果 每 个 进程 都 准备 用 到 它 的 最 大 需求 ， 那 么 仍然 会 有 一 些 资源 分 配 和 释放 的 序列 ， 将 会 使 系统 
能 满足 每 个 进程 的 请 求 。 有 这 个 保证 的 系统 不 可 能 处 于 不 安全 状态 。 

图 10-13 是 关于 一 组 进程 如 何在 一 个 安全 状态 中 操作 ， 以 及 如 何 使 系统 在 一 个 不 安全 的 状态 中 冒险 运行 的 
教学 性 描述 。 如 图 中 左 侧 流 程 图 所 示 ， 正 常情 况 下 ， 程 序 执行 会 使 用 低 于 最 大 资源 需求 数 的 资源 单元 ， 只 有 偶 
尔 在 一 个 计算 阶段 ， 请 求 使 用 最 大 资源 。 在 资源 需求 密集 阶段 结束 以 后 ， 进 程 又 回 到 需要 适中 的 资源 单元 数 的 
操作 。 经 验 表明 ， 大 部 分 程序 是 以 这 种 方式 来 编写 的 一 一 它们 仅 在 例外 的 条 件 下 请 求 最 大 资源 需求 数 。 























可 能 在 安全 状态 
是 
到 不 安全 状态 的 可 能 性 增加 





图 10-13 安全 状态 策略 
注 : 当 一 个 进程 执行 一 个 程序 时 ， 它 常常 并 不 需要 请 求 所 有 的 资源 : 它 可 能 并 不 是 同时 需要 它们 ， 或 者 全 部 的 
资源 仅 在 极端 的 情形 下 需要 。 在 正常 的 操作 下 ， 所 有 的 进程 需要 的 资源 少 于 最 大 资源 需求 数 。 
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只 要 进程 趋 于 使 用 小 于 “最 大 资源 需求 数 ” 的 资源 单元 ， 系 统 就 可 能 处 于 安全 状态 (但 是 不 能 保证 )。 
然而 ， 如 果 有 大 量 的 进程 恰好 同时 有 相对 多 的 资源 请 求 ( 等 于 或 接近 它们 的 最 大 需求 )， 系 统 资源 会 被 大 
量 使 用 ， 从 而 使 系统 状态 为 不 安全 状态 的 可 能 性 增 大 。 

死 锁 避免 策略 中 ， 假 设 每 个 进程 都 将 同时 选择 各 自流 程 图 中 的 “yes” 分 支 执行 ， 因 而 使 系统 处 于 所 
有 进程 都 同时 想 使 用 它们 最 大 资源 需求 的 情形 。 策 略 要 确定 ， 如 果 任 意 的 请 求 都 可 满足 ， 并 且 所 有 程序 都 
请 求 它们 的 最 大 资源 需求 数 ， 仍 然 还 有 一 些 资源 分 配 和 释放 的 序列 ， 按 照 这 个 序列 执行 的 话 ， 所 有 进程 的 
请 求 最 后 都 能 得 到 满足 。 

当然 ， 这 表明 了 资源 管理 器 在 阻塞 一 些 进程 的 同时 ， 让 其 他 一 些 进程 使 用 最 大 需求 资源 ， 然 后 再 允许 
阻塞 进程 继续 。 策 略 并 不 要 求 系统 有 足够 的 资源 能 够 同时 满足 所 有 进程 的 最 大 资源 需求 数 ， 而 只 是 要 求 能 
够 按 某 种 次 序 ， 最 后 能 满足 每 个 进程 的 要 求 。 即 使 死 锁 避 免 分 析 假 定 了 最 坏 的 情况 ， 系 统 不 能 保证 满足 所 
有 的 最 大 资源 需求 ， 而 可 能 运行 在 非 安 全 状态 中 ， 但 仍然 不 会 进入 死 锁 状态 。 这 是 因为 ， 资 源 管理 器 是 基 
于 每 个 进程 都 会 执行 它们 的 最 大 需求 数 申请 的 假定 来 进行 分 析 的 。 系 统 不 可 能 保证 满足 所 有 的 最 大 资源 需 
求 一 一 这 是 非 安全 状态 ， 但 是 一 些 进程 不 会 执行 最 大 资源 需求 数 申请 ， 直 到 系统 返回 到 安全 状态 中 。 很 明 
显 ， 在 部 分 进程 上 的 保守 假设 会 对 系统 的 性 能 产生 实质 性 的 影响 。 

换 名 话说， 如 果 一 个 状态 是 非 安全 的 ， 它 并 不 意味 着 系统 在 死 锁 状 态 ， 即 使 死 锁 即将 来 临 CL 
图 10-14) ， 它 只 是 简单 地 表示 资源 管理 器 “失去 控制 ”的 情况 ， 死 锁 与 否 将 只 由 进程 以 后 的 活动 来 决定 。 
状态 图 说 明了 系统 能 够 在 进入 非 安 全 状态 后 ， 又 返回 到 安全 状态 ， 这 取决 于 进程 组 的 活动 。 只 要 状态 是 安 
全 的 ， 资 源 管理 器 就 能 够 保证 避免 死 锁 。 





死 锁 状 态 


图 10-14 安全 、 非 安全 以 及 死 锁 状 态 
注 : 安全 状态 就 是 操作 系统 可 以 确保 没有 死 锁 的 状态 。 在 一 个 不 安全 状态 ， 系 统 可 能 会 ， 也 可 能 不 会 导致 死 锁 ， 
这 取决 于 一 组 应 用 进程 的 动作 〈 并 不 取决 于 操作 系统 策略 )。 


死 锁 避 免 策略 取决 于 对 特定 系统 状态 的 分 析 ， 来 确定 系统 是 否 安 全 。 这 意味 着 我 们 需要 状态 变换 图 中 
每 种 状态 更 详细 的 模型 信息 ， 以 便 对 状态 安全 做 出 判定 。 在 死 锁 避免 策略 中 使 用 的 经 典 的 状态 模型 ， 源 于 
Dijkstra [1968] 对 资源 分 配 和 银行 工作 方式 的 分 析 。 


银行 家 算法 
银行 家 算法 是 最 有 名 的 死 锁 吉 免 策略 ， 这 种 策略 以 银行 系统 所 采用 的 借贷 策略 为 基础 建立 模型 。 一 个 








246 #1IOF 





银行 只 有 有 限 数目 的 资金 一 一 资源 ， 可 用 于 贷 给 不 同 的 借用 者 一 一 进程 。 为 了 满足 借用 者 ， 银 行 可 能 对 客 
户 扩展 信用 底线 ,贷款 限额 就 是 银行 对 客户 的 信用 底线 ， 它 准备 借 指定 的 有 限 资金 给 客户 。 客 户 也 同意 双 
方 在 没有 达成 新 协议 之 前 ， 不 会 要 求 比 贷款 限额 更 多 的 资金 ， 那么 贷款 限额 就 是 客户 对 资源 的 最 大 需 
求 数 。 

模型 中 有 一 个 重要 的 默认 假设 ， 就 是 如 果 一 个 客户 借 满 了 贷款 限额 的 款项 ， 然 后 又 请 求 另外 的 资金 ， 
那么 只 有 在 将 第 一 笔 借 款 归 还 给 银行 后 ， 银 行 才 有 可 能 借贷 另外 的 资金 ， 因 而 在 银行 家 模型 中 是 没有 剥夺 
的 。 分 配 资源 的 银行 家 策略 ， 能 够 通过 所 有 已 经 提供 给 客户 的 限额 贷款 ， 以 及 银行 控制 的 所 有 资金 数目 来 
指导 进行 。 在 任意 时 刻 ， 贷 款 部 门 要 查看 已 分 配给 客户 的 资金 ， 以 及 每 个 客户 所 请 求 的 最 大 数目 。 如 果 有 
某 种 活动 序列 ， 其 中 至 少 一 个 客户 的 贷款 限额 被 完全 满足 ， 假 定 该 客户 借 到 贷款 限额 后 就 偿还 整个 贷款 ， 
那么 在 该 客户 偿还 贷款 后 ， 算 法 会 对 其 他 的 帐户 重复 进行 类 似 的 计算 。 如 果 所 有 客户 都 能 够 得 到 它们 的 贷 
款 限 额 ， 并 偿还 贷款 ， 那 么 当前 的 状态 就 是 安全 的 。 

现在 重新 考虑 银行 的 例子 ， 以 一 个 进程 集合 已 ， 使 用 一 个 资源 集合 R 的 情况 来 取代 。 当 前 系统 状态 
Se 的 特性 是 由 已 经 分 配给 进程 的 资源 情况 所 确定 的 ， 系 统 状态 可 以 通过 枚 举 每 个 进程 所 占有 的 每 种 资源 类 
型 的 资源 单元 数 来 定义 。 设 alloc 是 一 个 表格 ， 其 中 i 行 表 示 进 程 p;，j 列表 示 资 源 R;， 并且 alloc [i, 
jl 是 进程 p; 所 占有 的 RR 资源 的 单元 数目 。 设 另 一 个 表格 maxc， 表 示 进 程 p; 对 资源 RR 的 最 大 资源 需求 
数 。R; 的 可 用 单元 数目 可 计算 如 下 : 


avail[j] = c; -Sallocli, j). 


检查 c;， 系 统 中 每 种 资源 的 单元 数目 一 maxc [i, j] 和 aaloc [i，j]， 并 且 简 单 地 通过 枚 举 和 检查 
所 有 可 能 的 状态 变换 序列 ， 来 确定 当前 分 配 状态 是 否 安全 。 淮 确 的 算法 实现 如 图 10-15 所 示 。 算 法 计算 在 
当前 状态 中 可 用 的 每 种 资源 类 型 的 资源 单元 数目 ， 给 出 一 个 值 的 向 量 ， 其 中 avail [j] 就 是 该 状态 中 可 用 
的 资源 R, 的 单元 数目 。 





1. 将 表格 alloc [i，j] 的 内 容 拷 贝 到 一 个 叫 alloc 的 表 中 。 

2. 假定 有 C、maxc 和 alloc ,计算 向 量 avail。 首 先 通 过 取得 alloc 的 列 之 和 alloc”[*，j]， 然 
后 计算 avail [j] =cj-alloc [*, jj]。 

3. 找到 进程 p; 使 得 maxe [i, j] -alloc [i, j] Savail [j] 成 立 , HP O0<j<m HO<i< 
no 如 果 没 有 这 样 的 进程 p; 存在 ， 那 么 状态 是 非 安 全 的 一 一 停止 算法 ; 如果 对 于 所 有 的 i 和 j， 
alloc’ [i，jj 是 0， 那么 状态 是 安全 的 一 一 停止 算法 。 

4. RE alloc’ li, j] 为 0， 表 示 进 程 p; 能 够 执行 它 的 最 大 资源 需求 申请 ， 然 后 释放 所 有 资源 。 
表示 进程 p; 不 会 被 永久 地 阻塞 在 正 分 析 的 状态 中 ， 返 回 到 第 2 步 执行 。 











图 10-15 银行 家 算法 
注 : 银行 家 算法 反复 地 确定 是 否 有 进程 的 最 大 资源 需求 能 得 到 满足 ， 如 果 所 有 的 进程 的 请 求 满足 了 ， 状 态 就 是 安 
全 的 ， 否则 它 是 不 安全 的 。 


我 们 考虑 每 个 进程 并 提问 ， 如 果 一 个 进程 突然 请 求 它 的 最 大 资源 需求 量 ， 有 足够 的 资源 来 满足 请 求 
B? 如 果 有 ， 那 么 这 个 进程 在 这 种 状态 中 就 不 会 死 锁 ， 因 为 有 一 个 序列 ， 使 得 该 进程 最 后 能 够 将 所 有 它 占 
有 的 资源 返还 给 操作 系统 。 我 们 通过 增加 该 进程 所 占有 的 每 种 资源 单元 数 到 avail 向 量 中 来 模拟 这 个 过 
程 ， 然 后 考虑 每 个 进程 ， 看 一 下 是 否 任 一 新 进程 能 够 执行 它们 的 最 大 资源 需求 申请 。 如 果 每 个 进程 都 能 执 
47, 那么 就 说 状态 是 安全 的 。 


E ~~ : 
TA: 使 用 银行 家 算法 

假设 一 个 带 有 四 种 资源 类 型 的 系统 ，C = <8，5，9，7> ， 能 够 支持 5 个 进程 拥有 最 大 资源 需求 数 ， 
如 图 10-16 所 示 。 当 前 的 系统 状态 为 如 图 10-17 所 示 的 分 配 状 态 。 假 设 使 用 银行 家 算法 来 确定 相应 的 状态 
是 否 安全 。 首 先 ， 计算 当 前 分 配 资源 的 列 和 : 
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alloc’.columnSum = <7, 3, 7, 5> 


第 2 步 ， 确 定 当前 有 多 少 可 用 的 资源 单元 : 


avail[0] = 
avail[1] = 
avail[2) = 
avail[3] = 


NNN Be 


Bl avail=<1, 2, 2, 2>, 
第 3 步 ， 查 找 一 个 进程 ， 使 它 的 最 大 资源 需求 数 在 表 alloc 所 示 的 状态 下 可 以 得 到 满足 。 查 找 过 程 
如 下 : 












































maxc[2, 0) - alloc’[2, 0) = 5 - 4=1< 1 = avail[0} 
maxc(2, 1] - alloc’(2, 1] = 1-0 = 1 2 = avail{1]} 
maxc(2, 2] - alloc’{2, 2] = 0 - 0 = 0 s 2 = avail[2) 
maxc[2, 3] - alloc'[2, 3} = 5 - 3 = 2 < 2 = avail{3] 
图 10-16 最 大 资源 需求 数 表 图 10-17 系统 的 一 个 安全 分 配 状 态 
TE: 这 张 表 描述 了 进程 p; 请 求 的 资源 RR; 的 注 : 该 表 描 述 了 进程 p; 当前 占有 的 资源 R; 的 数目 。 在 
最 大 数目 。 这 个 分 配 图 表示 的 状态 中 ， 系 统 处 于 安全 状态 。 


结果 发 现 p 能 够 在 当前 状态 下 执行 它 的 最 大 资源 需求 申请 ， 并 且 随 后 释放 所 有 它 占有 的 资源 ， 因 而 
有 如 下 过 程 ; 


avVail[0] = avail [0} + alloc’{2, 0] = 1+4=5 
avail[1} = avail [1] + alloc’[2, 1} = 2+0 = 2 
avail[2] = avail [2] + alloc’[2, 2] = 2 +0 = 2 
avail[{3] = avail [3] + alloc’{2, 3] = 2 +325 


接 下 来 ， 我 们 确定 p, 能 够 执行 它 的 最 大 资源 需求 申请 ， 
并 且 随 后 会 释放 它 所 占有 的 资源 ， 从 而 向 量 avail 设置 为 <6， 
2,，5，5>>。 从 这 个 假定 的 前 提出 发 ， 其 他 三 个 进程 都 可 以 的 
行 它们 的 最 大 资源 需求 申请 ， 所 以 状态 是 安全 的 。 

图 10-18 所 示 的 分 配 状态 是 不 安全 的 ， 这 是 通过 在 算法 中 
的 第 3 步 发 现 ， 没 有 进程 能 够 执行 它 的 最 大 资源 需求 申请 而 确 
定 的 〈 使 用 图 10-16 中 的 最 大 资源 需求 数 表 )。 如 果 p 恰好 释 ”图 10-18 系统 的 一 个 非 安全 分 配 状态 
放 Ro 一 个 单元 的 资源 ， 它 不 被 阻塞 。 那 么 状态 就 如 图 10-17 H: 这 个 分 配 状态 是 不 安全 的 ， 因 为 没有 进 
所 示 ， 因 而 它 又 会 是 安全 的 了 。 | 程 的 最 大 资源 请 求 数 能 被 满足 。 




















E 





10.5 死 锁 检测 和 恢复 


检测 和 人 恢复 策略 允许 资源 管理 器 在 资源 分 配 上 比 死 锁 避 免 策略 更 为 主动 。 死 锁 避免 算法 避免 非 安全 状 
态 ， 尽 管 系统 可 能 能 够 从 非 安 全 状态 恢复 。 但 是 在 检测 和 恢复 算法 中 ， 并 不 区 分 安全 状态 与 非 安全 状态 ， 
只 要 资源 单元 是 可 用 的 ， 资 源 管理 器 就 可 以 分 配 它 。 如 果 进 程 在 一 个 长 时 间 内 ， 看 起 来 好 像 被 资源 所 阻 
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塞 ， 那 么 检测 算法 就 开始 执行 ， 确 定 是 否 当前 状态 是 死 锁 的 。 检 测算 法 并 不 对 从 当前 状态 可 达 的 状态 进行 
预测 ， 尽 管 算法 将 确定 是 否 有 一 个 变换 序列 ， 使 得 每 个 进程 都 变 成 非 阻塞 。 

资源 已 经 被 定义 为 “进程 继续 运行 所 需要 的 任何 实体 "。 如 前 所 述 ， 这 种 需要 可 能 是 一 个 主 存 块 、 一 
个 文件 或 者 对 一 个 设备 的 独占 访问 等 。 这 些 资源 称 为 顺序 可 重用 资源 (serially reusable resource) ， 因为 一 个 
进程 可 以 请 求 操 作 系 统 分 配 并 独占 这 种 资源 ， 随 后 释放 该 资源 供 其 他 进程 使 用 。 上 顺序 可 重用 资源 的 各 个 单 
元 ,采用 严格 的 时 分 复 用 共享 的 方法 来 使 用 。 | 

进程 也 使 用 可 消费 的 资源 (consumable resource)。 例 如 ， 当 一 个 进程 试图 从 键盘 读 取 下 一 个 字符 时 被 
阻塞 ， 那 么 该 字符 就 是 进程 继续 运行 所 需要 的 东西 。 然 而 ， 一 旦 进程 获得 字符 ， 将 不 会 释放 它 。 资 源 管理 
器 和 进程 会 分 别处 理 这 两 类 资源 的 实例 ， 在 进行 死 锁 分 析 的 理论 上 也 会 呈现 不 同 的 特性 。 下 面 几 小 节 将 讨 
论 顺序 可 重用 资源 和 可 消费 资源 ， 然 后 解释 在 包含 这 两 类 资源 的 系统 中 ， 是 如 何 进行 死 锁 检测 的 。 


10.5.1 顺序 可 重用 资源 


顺序 可 重用 资源 可 以 用 来 表示 传统 的 硬件 资源 和 它们 的 抽象 。 在 我 们 的 死 锁 分 析 中 ， 顺 序 可 重用 资源 
R; 有 有 限 数目 的 可 标识 资源 单元 ， 满 足下 列 条 件 ， 
a 资源 R; 的 单元 数目 Cj 是 一 个 常数 。 
BRR 的 每 个 单元 或 者 是 可 用 的 ， 或 者 已 经 被 分 配给 一 个 进程 且 只 能 被 分 配给 一 个 进程 。 
BGR 的 单元 只 有 在 被 获取 后 才能 释放 。 
接 下 来 ,我 们 改进 10.2 节 描 述 的 进程 资源 图 模型 ， 使 得 它们 可 以 描述 只 包含 顺序 可 重用 资源 的 系统 
的 每 个 系统 状态 ， 它 们 是 在 图 10-4 和 图 10-10 中 所 示 图 的 基础 上 提炼 而 成 的 。 
可 重用 资源 图 模型 
可 重用 资源 图 是 一 个 微观 模型 ， 其 中 描述 了 状态 变换 模型 中 单个 状态 的 详细 情况 ， 它 是 一 个 有 向 图 ， 
并 有 下 列 条 件 成 立 : 
图 n+ m 结 点 表示 ”个 进程 〈 图 中 由 圆圈 来 表示 ) 和 xm 种 资源 (图 中 由 方 框 来 表示 )。 
u 边 表示 进程 到 资源 的 连接 或 资源 到 进程 的 连接 。 
E 从 进程 p; 到 资源 R; 的 边 是 一 个 请 求 边 ， 表 示 p 请 求 分 配 R 的 1 个 单元 。 从 pi 到 RR 可 能 有 多 条 
边 ， 每 条 边 表 示 对 一 个 资源 单元 的 请 求 。 
B 从 资源 R 到 进程 p; 的 边 是 一 个 分 配 边 ， 表 示 R 的 1 个 单元 已 分 配给 了 pio AR Bp, 也 可 能 有 多 
条 边 。 
对 于 每 种 资源 类 型 R ， 都 有 一 个 对 该 种 类 型 单元 数目 的 计数 c;， 它 通过 在 R 中 的 小 圆 点 来 进行 
图 示 。 
E 资源 R 已 经 被 分 配 的 单元 数目 ， 加 上 进程 p; 所 请 求 的 单元 数目 ， 不 能 超过 co 
图 10-19 是 对 图 10-10 的 改进 ， 表 现 了 一 个 顺序 可 重用 资源 图 。 除 了 进程 、 资 源 、 请 求 以 及 分 配 之 外 ， 
还 将 每 类 资源 配置 的 资源 单元 数目 表示 出 来 (通过 资源 中 的 “点 ”来 表示 )。 需 要 强调 的 是 ， 图 中 用 边 来 
表示 分 配 特定 的 资源 单元 给 进程 。 
通过 将 资源 的 计数 增加 到 模型 图 中 ， 循 环 等 待 条 件 中 的 其 他 详细 信息 就 变 得 明显 了 。 图 中 ， 每 种 资源 
类 型 中 的 每 个 可 用 单元 都 已 经 分 配 出 去 ， 而 每 个 卷 人 循环 等 待 的 进程 ， 都 在 请 求 一 个 不 可 用 的 资源 单元 。 
图 形 表示 是 非常 有 用 的 ， 因 为 它 清晰 地 表现 了 ， 一 个 循环 可 重用 资源 图 并 不 是 引起 死 锁 的 充分 条 件 。 由 于 
任 一 种 资源 都 可 以 有 和 多 于 1 个 的 单元 数 〔 例 如 ， 如 图 10-20a 中 的 Ri 一 样 ) ， 因 而 单个 请 求 边 是 能 够 满足 
的 ， 从 而 打破 了 循环 等 待 。 图 10-10 对 于 介绍 循环 等 待 的 概念 是 有 用 的 ， 然 而 ， 它 还 不 是 很 完善 ， 它 不 允 
许 检测 算法 对 模型 中 图 形 描述 的 形式 表示 进行 操作 ， 因 为 其 中 没有 包括 单元 计数 。 
每 个 可 重用 资源 图 是 系统 状态 模型 中 各 个 状态 的 详细 表示 。 图 10-20a) 中 表示 了 一 种 系统 状态 ， 而 b) 
中 是 另 一 种 不 同 的 状态 ， 它 是 从 a) 表示 的 状态 变换 而 成 的 。 在 图 10-20b) 中 ， 一 个 变换 已 经 发 生 ， 即 资 
源 Ri 的 一 个 可 用 单元 已 经 分 配给 了 进程 户 。 这 个 例子 给 了 我 们 一 些 启示 ， 就 是 如 何 使 用 可 重用 资源 图 来 
表示 系统 模型 中 的 状态 ， 而 无 需 实际 构造 一 个 状态 变换 模型 。 即 我 们 要 依赖 10.2 节 中 所 解释 的 模型 ， 但 
又 无 需 实 际 去 构造 它 。 
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图 10-19 循环 等 待 图 的 精确 表示 
: 这 幅 图 是 表示 系统 状态 的 顺序 可 重用 资源 图 。 这 个 特定 的 图 并 不 完全 ， 但 是 如 果 把 它 画 完全 ， 它 将 是 一 个 
死 锁 状 态 。 





a) A-TR 单元 可 用 b) 所 有 RR 单元 被 分 配 


图 10-20 使 用 可 重用 资源 图 表示 一 个 状态 变换 
: 这 幅 图 表示 了 可 重用 资源 图 的 两 个 不 同 版 本 ， 每 个 图 表示 了 一 个 系统 状态 。 在 a) AF, p 在 请 求 一 个 单 
元 的 资源 Ri。 在 b) AF, R 的 可 用 单元 已 分 配给 p,。 
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只 要 下 列 三 种 事件 之 一 发 生 ， 就 会 有 状态 的 变换 : 
n 通过 释放 事件 d 释放 任意 的 已 分 配 资源 。 
© 经 由 请 求 事件 > 请 求 一 个 新 资源 。 
B 使 用 分 配 事件 a 将 一 个 资源 分 配给 一 个 进程 。 
在 操作 系统 中 ， 通 过 定义 状态 变换 图 和 变换 ， 能 够 更 为 准确 地 表示 一 个 特定 的 分 配 策略 。 例如 ， 
广泛 使 用 的 特定 分 配 策略 ， 采 用 下 列 一 些 资 源 事件 语义 : 
BHR: 假设 系统 处 于 状态 s, HE pi 被 允许 请 求 资源 类 型 R, 的 任意 单元 数 g Sa), HBE p: 
没有 对 任 一 资源 的 额外 请 求 。 一 个 请 求 会 引起 状态 从 5 转换 到 5， 其 中 5 的 可 重用 资源 图 ， 是 通 
过 将 从 p; BIR, 的 9 个 请 求 边 增 加 到 s 的 可 重用 资源 图 中 而 成 的 〈 即 为 每 个 单元 请 求 增加 一 条 请 
求 边 )。 
MRA: 假设 系统 处 于 状态 5 ， 进 程 p RAWKI R, 的 若干 资源 单元 ， 当 且 仅 当 在 * 的 可 重用 资源 
图 中 ， 有 从 p; UR, 的 请 求 边 并 且 对 所 有 这 些 资 源 的 这 类 请 求 ， 可 以 一 次 全 部 满足 。 资 源 的 获得 会 
使 状态 从 s 转换 到 s;。 在 这 种 情形 中 ，s 的 可 重用 资源 图 ， 是 通过 把 s 的 可 重用 资源 图 中 的 从 户 
SIR, 的 请 求 边 ， 改 变 为 相应 从 R, 到 p: 的 分 配 边 而 形成 的 。 
HK: 假设 系统 处 于 状态 s, HF p; 能 够 释放 R， 的 单元 ， 当 且 仅 当 在 s; 的 可 重用 资源 图 中 ， 有 从 
R 到 户 的 分 配 边 ， 并 且 没 有 从 p; 开始 的 请 求 边 。 资 源 的 释放 会 使 状态 从 s 转换 到 so EXPE 
H, s 的 可 重用 资源 图 ， 是 通过 把 s 的 可 重用 资源 图 中 从 R; 到 p; 的 分 配 边 删除 而 形成 的 。 
这 个 策略 虽 有 点 特殊 ， 但 仍然 可 以 扩展 并 应 用 于 许多 合理 的 资源 分 配 策略 。 它 将 用 于 死 锁 检测 和 恢复 
的 分 析 ， 这 将 在 本 章 的 后 面 介绍 。 
10.2 节 中 介绍 了 一 个 简单 的 系统 ， 其 中 两 个 进程 共享 单个 资源 类 型 的 两 个 单元 。 例 子 中 隐 含 地 假设 
了 资源 为 顺序 可 重用 的 ， 图 10-7 中 提供 了 该 系统 的 状态 图 。 现 在 我 们 可 以 考虑 每 个 状态 的 可 重用 资源 模 
型 图 。 
在 图 10-21 中 : 
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图 10-21 一 组 可 重用 资源 图 
È: 这 是 图 10-7 中 的 单 资源 请 求 模型 的 可 重用 资源 图 。 


Ba) 部 分 表示 状态 soo， 其 中 既 没 有 进程 占有 资源 单元 ， 也 没有 进程 请 求 资源 。 
BOR pi 使 用 变换 ri 请 求 一 个 单元 的 资源 (本 例 中 ， 只 允许 请 求 一 个 单元 的 资源 )， 系 统 就 转换 到 
状态 sos RE b) 部 分 中 所 表现 的 可 重用 资源 图 。 
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加 如 果然 后 po 又 请 求 一 个 单元 的 资源 ， 通 过 变换 ro 来 指定 ， 系 统 就 会 从 状态 so 变换 到 状态 su, B 
是 c) 部 分 中 所 表现 的 可 重用 资源 图 。 
Bd) 部 分 表示 状态 wa。 
Bc) 部 分 表示 状态 sy, 其 中 两 个 进程 分 别 占 有 一 个 单元 的 资源 。 
n 当 我 们 开始 考虑 这 个 例子 时 ， 注 意 到 s33 是 死 锁 状 态 ， 因 为 没有 状态 能 从 中 变换 出 来 。f) 部 分 就 是 
这 个 状态 的 可 重用 资源 图 。 
还 要 注意 ， 状 态 s3 的 可 重用 资源 图 中 有 一 个 循环 ， 并 且 所 有 的 资源 单元 都 已 经 分 配 了 。 
分 析 可 重用 资源 图 
我 们 已 经 有 了 状态 的 宏观 模型 ， 以 及 该 宏观 模 
型 中 每 个 状态 的 微观 模型 。 使 用 10.2 节 中 的 宏观 模 
型 ， 我 们 通过 分 析 图 10-7 中 的 状态 图 ， 可 以 确定 状 
态 是 死 锁 状态 。 因 为 ;33 没 有 包含 向 外 的 变换 ， 因 而 
就 表示 是 死 锁 状态 。 如 果 状 态 图 中 包含 节 (knot), 
一 旦 系统 进程 进入 节 中 的 任 一 状态 ， 那么 这 种 情形 
就 会 更 加 复杂 ， 它 再 也 不 会 变换 到 节 之 外 的 其 他 状 
态 。 例 如 ， 在 图 10-22 中 ， 系 统 能 够 从 状态 s È sr 
转 人 节 中 ， 然 后 就 再 也 不 会 从 节 中 变换 出 来 。 这 种 





情形 使 查看 一 个 进程 是 否 会 又 郑 人 一 个 变换 中 ( 即 。 a AREA rma 
> ARG Zu a aa on us 
查看 进程 是 否 为 死 锁 ) 的 算法 变 得 复杂 多 了 。 二 的 路 径 公道 向 节 中 的 其 位 红 上 


我 们 可 以 分 析 可 重用 资源 图 的 微观 模型 ， 以 此 
来 确定 宏观 模型 状态 是 否 为 死 锁 。 其 想法 是 基于 可 重用 资源 图 中 的 边 来 考虑 可 能 的 变换 。 如 果 一 个 进程 在 
当前 状态 中 被 阻塞 ， 而 且 在 可 以 从 当前 状态 变换 到 的 状态 中 也 阻塞 ， 那 么 该 进程 就 处 于 死 锁 状 态 。 根 据 与 
资源 请 求 、 获 得 、 释 放 事件 相关 的 语义 (参阅 前 面 在 特定 的 策略 中 所 描述 的 ) ， 一 个 进程 被 阻塞 的 条 件 重 
申 如 下 : 如 果 有 进程 p; 和 资源 R;， 在 状态 bP, p 对 RR; 请 求 的 单元 数 超过 了 R; 中 总 的 单元 数目 ， 那 么 
进程 p; 就 在 % 中 阻塞 。 

为 了 检测 s 是 否 为 死 锁 状态 ， 我 们 必须 假设 没有 一 个 状态 变换 序列 能 使 被 阻塞 的 进程 解除 阻塞 。 无 
需 考 查 状 态 图 ， 我 们 可 以 考虑 可 重用 资源 图 的 所 有 变换 ， 来 确定 是 否 有 一 个 新 的 图 ， 可 以 通过 相应 的 状态 
变换 可 达 。 如 果 找 到 一 系列 的 变换 ， 使 得 进程 p 被 解除 阻塞 ， 那 么 原始 状态 就 不 是 死 锁 的 。 

图 的 化 简 (graph reduction) 是 表示 进程 最 佳 活动 的 一 组 变换 ， 这 些 变换 类 似 于 银行 家 算法 中 对 状态 是 
否 安全 的 单 步 检测 ， 但 这 里 表示 对 状态 的 分 析 ， 而 不 是 对 进程 集合 体 未 来 活动 的 预测 。 在 银行 家 算法 中 ， 
目的 是 避免 非 安 全 状态 ， 而 在 检测 算法 中 ， 是 为 了 确定 当前 状态 是 否 为 死 锁 。 如 果 下 列 条 件 满足 ， 那 么 一 
个 顺序 可 重用 资源 图 就 能 够 通过 进程 p; 来 进行 化 简 : 

ete p 没有 被 阻塞 。 

E 进程 没有 请 求 边 。 

a 有 分 配 边 指向 pio 

通过 消除 所 有 指向 p; 的 分 配 边 ， 可 以 化 简 可 重用 资源 图 。 如 果 一 个 可 重用 资源 图 不 能 通过 任 一 个 进 
程 化 简 ， 那么 它 就 是 不 可 化 简 的 (irreducible)。 如 果 有 一 个 化 简 序列 ， 导 致 图 中 没有 任何 种 类 的 边 ， 那 么 
CRER ZERI (completely reducible)。 可 以 证 明 ， 假 设 一 个 可 重用 资源 图 的 状态 为 ses WER s, 为 死 
锁 状 态 ， 当 且 仅 当 顺 序 可 重用 资源 图 是 不 可 完全 化 简 的 (Nutt, 1992], 

如 果 我 们 能 够 把 死 锁 与 可 重用 资源 图 中 的 一 个 静态 特性 〈 比 如 说 图 中 有 循环 的 出 现 ) 相关 联 的 话 ， 那 就 
太 好 了 。 不 幸 的 是 ， 没 有 这 样 的 静态 特性 。 事 实 上 ， 图 的 化 简 已 经 充分 表明 没有 这 样 的 静态 特征 〈 至 少 在 使 
用 这 种 资源 分 配方 案 的 模型 中 没有 )。 在 有 循环 的 情形 中 ， 一 个 死 锁 状 态 的 图 中 一 定 包含 有 一 个 循环 ; 在 可 
重用 资源 图 中 循环 是 死 锁 的 必要 条 件 ， 但 不 是 死 锁 的 充分 条 件 。 这 已 经 在 图 10-2 中 解释 过 了 ， 并 再 次 在 图 
10-23 中 作 了 说 明 ， 其 中 进程 po 占有 资源 Ro。， 并 请 求 Ri， 而 同时 进程 p) 占有 资源 R, MPR Roo WA 
10-23 中 a) 部 分 所 表现 的 一 个 循环 及 死 锁 状态 ， 但 b) 部 分 不 是 死 锁 状态 ， 却 也 包含 一 个 相同 的 循环 。 
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a) 死 锁 状态 b) 非 死 锁 状态 


图 10-23 ”循环 等 待 (重新 考虑 ) 
注 : 图 a) 解释 了 包含 循环 并 是 死 锁 状态 的 可 重用 资源 图 (不 可 能 再 精简 这 幅 图 了 )。 然 而 ,图 b) 也 是 有 一 个 
循环 的 类 似 的 图 ， 但 是 因为 我 们 能 够 精简 po。， 然 后 可 以 精简 p,， 这 幅 图 并 不 表示 死 锁 状 态 。 








示例 : 顺序 可 重用 资源 图 
例如 ， 假 设 一 种 系统 状态 ， 用 如 图 10.24a) 所 示 的 可 重用 资源 图 来 表示 。 


c) d) 


图 10-24 可 完全 化 简 的 可 重用 资源 图 


TE: 这 幅 图 是 可 化 简 的 ， 图 b) 显示 了 po 化 简 后 的 情况 ， 图 c) 显示 了 pi 化 简 后 的 情况 ， 图 d) 是 一 个 完全 的 
精简 图 。 
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n 注意 到 进程 pı 和 p: 都 被 阻塞 (p ÆRE, p: ÆR HR, E)o 
m 然而 po 没有 被 阻塞 ， 因 而 我 们 可 以 通过 po 来 化 
简 图 ， 表 示 有 一 系列 从 当前 状态 开始 的 可 能 变 
换 ， 能 使 po 获得 并 释放 它 当 前 所 请 求 的 资源 。 
m 在 通过 po 化 简 后 ， 我 们 就 获得 了 如 图 10-24b) 
所 示 的 化 简 图 。 
B 现 在 又 可 以 通过 p 进行 化 简 ， 意 味 着 系统 可 以 
从 b) 部 分 所 示 的 状态 ,转换 到 ec) 部 分 所 示 的 
状态 中 。 
ava, Rima po 化 简 得 到 了 d) 部 分 所 示 的 化 
简 图 一 一 一 个 完全 化 简 的 图 。 
因为 分 析 显 示 了 图 是 完全 可 化 简 的 ， 说 明 原 来 的 状 
态 不 是 死 锁 的 。 
图 10-25 表示 了 一 个 不 可 化 简 的 状态 及 死 锁 。 进 程 
po 占有 1 个 单元 的 Ro 资源 和 1 个 单元 的 Ri 资源 ， 并 








请 求 1 个 单元 的 Ro 资源 ; 而 同时 进程 pi 占有 1 个 单元 图 10-25 有 死 锁 的 可 重用 资源 图 
的 Ro 资源 ， 并 请 求 1 个 单元 的 R 资源 )， 占有 2 个 E: 这 幅 图 不 能 被 任何 进程 简化 ， 因 为 在 这 幅 
单元 的 R; 资源 ， 并 请 求 1 个 单元 的 R 资源 ， 没 有 进 图 的 状态 表示 中 ， 所 有 的 进程 都 处 于 死 锁 。 
程 能 够 继续 运行 。 

| 
10.5.2 可 消费 资源 


可 消费 资源 与 顺序 可 重用 资源 的 不 同 之 处 在 于 ， 一 个 进程 可 以 请 求 可 消费 资源 ， 而 且 不 再 释放 它们 ; 
反 过 来 说 ， 一 个 进程 能 够 释放 可 消费 资源 单元 ， 而 无 需 曾经 获得 过 它们 。 和 典型 的 可 消费 资源 有 信和 号、 消息 
或 者 输入 数据 等 。 因 为 这 种 资源 可 以 有 不 限定 的 单元 数目 ， 并 且 分 配 的 单元 不 用 释放 ， 所 以 用 于 分 析 顺 序 
可 重用 资源 的 模型 不 能 应 用 于 可 消费 资源 。 然 而 ， 通过 重新 定义 针对 可 消费 资源 的 模型 ， 能 够 找到 检测 系 
统 死 锁 状 态 的 条 件 。 

一 种 可 消费 资源 R;， 有 无 限 的 可 标识 资源 单元 数目 ， 满 足下 列 说 明 . 

里 资源 的 单元 数目 w 是 变化 的 。(w 代 蔡 c 是 为 了 强调 ， 可 消费 资源 的 可 用 单元 数目 与 顺序 可 重用 

资源 的 国定 单元 数目 不 同 。) 

a 有 一 个 或 多 个 生产 者 进程 名， 可 能 通过 释放 资源 单元 来 增加 zw。 

得 消费 者 进程 p.， 通 过 获得 资源 单元 而 减 小 资源 R 的 wwi。 

如 同 使 用 可 重用 资源 图 作为 一 个 微观 模型 来 考虑 顺序 可 重用 资源 的 特性 一 样 ， 我 们 也 将 使 用 可 消费 资 
源 图 来 定义 一 个 微观 模型 ， 用 于 分 析 可 消费 资源 的 特性 。 

可 消费 资源 模型 图 

可 消费 资源 图 是 一 个 有 向 图 ， 并 有 下 列 条 件 成 立 : 

图 2 + m 个 结 点 表示 个 进程 和 mm 种 资源 。 

u 有 连接 进程 与 资源 的 边 ， 也 有 连接 资源 与 进程 的 边 。 

u 从 进程 p 到 资源 R; 的 边 是 一 个 请 求 边 ， 表 示 pi 请 求 分 配 R; 的 1 个 资源 单元 。 

a 从 资源 R; 到 进程 p; 的 边 是 一 个 生产 者 边 ， 表 明 p; 作为 R; 的 生产 者 。 每 种 资源 都 必须 至 少 有 一 个 

生产 者 。 

SR 的 单元 数目 为 zw ， 它 通过 在 R 中 的 圆 点 来 进行 图 示 。 

为 了 研究 有 可 消费 资源 的 系统 ， 如 同 对 顺序 可 重用 资源 做 的 那样 ， 我 们 又 规定 了 一 种 特定 的 资源 管理 
策略 。 该 策略 符合 可 消费 资源 的 通常 用 法 ， 然 后 我 们 可 以 重新 定义 ， 使 它 符合 任 一 特定 资源 管理 器 的 要 
求 。 策 略 通 过 下 列 活动 来 确定 : 
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BRR: 假设 系统 处 于 状态 ss ， 进 程 p; 允许 请 求 资 源 类 型 R 的 任意 数目 资源 单元 ， 并 假定 p; 没有 对 
任 一 资源 的 额外 请 求 。 一 个 请 求 会 引起 状态 从 5 RRBs, Hs 的 可 消费 资源 图 .是 通过 在 s 
的 可 消费 资源 图 中 增加 从 p: 到 Rs 的 请 求 边 而 形成 的 。 

BRA: 假设 系统 处 于 状态 s, HE pi 被 许可 获得 R, 的 单元 ， 当 且 仅 当 在 s 的 可 消费 资源 图 中 ， 有 
从 p; BR, 的 请 求 边 并 且 对 所 有 这 些 资源 的 这 类 请 求 ， 可 以 一 次 全 部 满足 。 资 源 的 获得 会 使 状态 从 
5 转换 到 wx。 在 这 种 情形 中 ，x 的 可 消费 资源 图 ， 是 通过 把 s 的 可 消费 资源 图 中 的 从 p; 到 Ri 的 请 
求 边 删除 ， 并 且 每 删除 一 条 边 使 wi 的 值 减 1 而 形成 的 。 

BHR: 假设 系统 处 于 状态 s ， 进 程 p; 能 够 释放 R 的 资源 单元 ， 当 且 仅 当 在 s 的 可 消费 资源 图 中 ， 存 
在 一 条 从 R; 到 p; 的 生产 者 边 ， 并且 没 有 从 p; BIR, 的 请 求 边 。 资 源 的 释放 会 使 状态 从 s 转换 到 so 
s 的 可 消费 资源 图 ， 是 在 s 的 可 消费 资源 图 中 ， 对 每 一 个 生产 的 资源 单元 使 w 的 值 加 1 而 成 的 。 

图 10-26 中 表现 了 一 个 简单 的 可 消费 资源 系统 中 的 一 系列 状态 转换 。 进 程 po。 和 pi 共享 一 种 可 消费 资源 。 

Ba) 部 分 表示 的 开始 状态 中 ， 思 是 资源 的 生产 者 ， 目 前 没有 可 用 的 资源 单元 ， 并 且 没 有 等 待 处 理 
的 资源 请 求 。 

m p 释放 了 1 个 单元 的 资源 时 ， 系 统 状态 改变 到 了 b) 部 分 中 表示 的 状态 。 

m 当 po FOR 2 个 单元 的 资源 时 ， 又 改变 到 了 c) 部 分 中 表示 的 状态 ， 在 这 一 点 ，po 被 阻塞 而 p 继续 运行 。 

Bid) 部 分 中 表示 的 状态 表示 pi 释放 了 另外 3 个 单元 的 资源 。 

BERG e) 部 分 表示 的 状态 中 ，po 获得 了 2 个 单元 的 资源 ， 系 统 还 剩余 2 个 单元 可 用 。 

没有 进程 被 阻塞 ， 所 以 没有 进程 死 锁 
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Æ 10-26 可 消费 资源 图 的 状态 转换 
注 : 状态 序列 解释 了 消费 资源 的 状态 迁移 。 因 为 p 没有 被 阻塞 ， 它 生产 资源 R 的 单元 。po 在 c) 部 分 中 阻塞 ， 
但 最 后 pi 生产 了 足够 的 资源 单元 来 满足 po 的 需要 。 ， 


分 析 一 个 可 消费 资源 图 

可 消费 资源 系统 的 行为 与 顺序 可 重用 资源 系统 不 同 ， 在 可 消费 资源 系统 中 有 无 限 的 资源 单元 数 可 用 。 
这 个 差别 意味 着 不 能 期 望 用 于 可 重用 资源 系统 的 分 析 方法 ， 能 够 用 于 可 消费 资源 系统 。 观 察 一 个 进程 被 阻 
塞 于 可 消费 资源 的 情形 ， 如 果 资 源 生产 者 当前 在 阻塞 状态 ， 我 们 只 能 推测 该 进程 是 否 会 被 解除 阻塞 。 因 
此 ， 如 果 要 确定 一 个 进程 是 否 为 死 锁 ， 分 析 中 必须 检查 资源 的 生产 者 ， 正 是 它 引 起 了 其 他 进程 被 阻塞 。 

那么 如 何 准确 地 确定 一 个 状态 是 否 为 死 锁 呢 ? 在 使 用 所 有 类 型 的 资源 时 ， 如 果 一 个 进程 在 当前 的 状态 
中 阻塞 ， 并 且 在 从 当前 状态 可 达 的 所 有 状态 中 也 阻塞 ， 那 么 它 就 是 在 死 锁 状态 。 因 此 ， 为 了 检测 死 锁 ， 我 
们 再 次 考虑 相应 于 状态 变换 ， 可 消费 资源 图 的 变化 。 如 果 进 程 没有 阻塞 ， 那 么 通过 它 能 够 化 简 可 消费 资源 
图 。 通 过 删除 图 中 的 请 求 边 ， 化 简 p; XIR 的 每 个 资源 单元 的 未 处 理 的 请 求 ， 会 引起 ww 减 1。 如 果 有 从 
Rs 到 pi 的 生产 者 边 ， 化 简 会 释放 Ri 的 无 限量 的 资源 单元 ， 并 且 从 图 中 删除 生产 者 边 (Ri, pi)o 

与 可 重用 资源 图 相似 ， 在 可 消费 资源 图 中 ， 化 简 也 是 检测 一 个 进程 是 否 被 永久 阻塞 的 基本 方法 。 在 
图 10-27 中 : 

Bp 是 资源 Ro 的 生产 者 ， 并 且 p 是 资源 R 的 生产 者 。 
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WE a) 部 分 中 ，z RAR R SHE, 并 且 pi 被 资源 Ro 阻塞 。 由 于 都 是 生产 者 的 关系 ， 所 以 很 明显 

这 是 一 个 死 锁 状 态 。 

虽然 而 ， 如 果 Ro RHR, 有 一 个 可 用 的 资源 单元 ， 如 b) 部 分 所 示 ， 就 不 会 有 死 锁 。 

mE po 能 够 分 配 到 Ri 的 一 个 单元 ， 那 么 它 就 不 再 被 阻塞 了 。 

BEER, HT po 没有 阻塞 ， 它 就 能 够 释放 任意 数量 的 Ro 单元 。 

当然 ， 系 统 可 能 不 会 采用 这 种 顺序 ， 但 我 们 试图 确定 状态 是 否 为 死 锁 ， 我们 观察 到 ，po 能 够 释放 因 
它 而 被 阻塞 的 其 他 进程 所 需 的 任意 单元 数 的 资源 ， 使 得 其 他 进程 解除 阻塞 。 





图 10-27 一 个 可 消费 资源 图 中 的 死 锁 
$: 这 幅 图 的 a) 部 分 是 死 锁 状态 ， 因 为 两 个 进程 都 被 阻塞 了 。 然 而 ， 在 b) 部 分 中 po 并 没有 被 阻塞 ， 所 以 我 们 
可 以 化 简 po， 然 后 可 以 化 简 p,， 这 并 不 是 一 个 死 锁 状 态 。 


图 10-28 所 示 为 一 个 可 消费 资源 图 ， 其 中 po p) 是 资源 RI RR) 的 生产 者 ，pi 对 RI 有 三 个 
请 求 ， 并 且 w1 =2。 由 于 Ri 的 生产 者 po 没有 被 阻塞 ， 它 可 以 释放 (生产) 满足 p 对 Ri 请求 的 单元 数 ， 


因而 此 状态 不 是 死 锁 。 
“一 





图 10-28 可 消费 资源 图 


TE: 这 个 状态 并 不 是 死 锁 状态 ， 因 为 po 可 以 图 10-29 可 消费 资源 图 的 复杂 情形 
生产 资源 Ri 任意 数 月 的 单元 。 我 们 可 以 TE: 这 并 不 是 一 个 死 锁 状态 ， 因 为 有 不 同 的 化 简 序 列 ， 
化 简 po， 然 后 化 简 pio 我 们 可 以 对 每 个 进程 进行 化 简 (没有 完全 的 化 简 )。 


然而 ， 图 10-29 说 明了 当 系 统 中 为 可 消费 资源 时 ， 我 们 就 不 能 依赖 完全 化 简 来 检测 死 锁 是 否 存在 。 在 
这 个 图 中 ，po 和 p; 分 别 都 对 资源 Ro MR 有 请 求 。po 是 资源 R 的 生产 者 ，p; 需要 1 个 单元 的 R 资 
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源 ，z2 是 资源 Ri 的 生产 者 。 类 似 地 ，p1 是 资源 Rs 的 生产 者 ，ps 需要 1 个 单元 的 Rs 资源 ，p3 是 资源 
Ro 的 生产 者 。 图 中 所 表示 的 状态 ， 没 有 进程 是 死 锁 的 ， 因 为 我 们 可 以 通过 po 或 p 进行 化 简 。 存 在 一 个 
到 某 状态 的 变换 ， 在 其 中 po 没有 阻塞 ， 并 且 也 存在 到 某 状态 的 变换 ， 使 得 pi 在 此 状态 下 没有 阻塞 。 一 旦 
我 们 通过 其 中 的 一 个 进程 进行 化 简 ， 就 不 能 再 通过 其 他 的 进程 进行 了 。 

例如 ， 如 果 我 们 通过 po 进行 化 简 ， 就 能 够 通过 p 进行 化 简 。 这 里 出 现 一 种 情形 ， 我 们 不 能 通过 p 
和 ps 进行 化 简 ， 由 于 ps 被 阻塞 ， 因 此 Ro 的 单个 资源 单元 就 不 能 得 到 补充 。 类 似 地 ， 通 过 pi 进行 化 简 会 
出 现 一 种 情形 ， 我 们 不 能 通过 po 或 pz 进行 化 简 。 通 过 该 分 析 并 不 能 把 图 10-29 中 所 示 的 状态 确定 为 死 锁 
状态 ， 因 为 它 不 是 一 种 死 锁 状态 。 在 从 图 中 所 示 状 态 可 达 的 后 继 序 列 状态 中 ， 并 没有 恰好 为 死 锁 状 态 的 状 
态 。 可 以 证 明 ， 设 在 一 个 表示 状态 s 的 可 消费 资源 图 中 ， 进 程 p; 在 该 状态 不 是 死 锁 的 ， 当 且 仅 当 有 一 化 
简 序 列 ， 在 对 应 的 状态 中 p; 不 会 被 阻塞 [Nutt，1992]。 


10.5.3 一 般 资 源 系统 


实际 系统 中 既 包 含有 可 重用 资源 又 有 可 消费 资源 ， 因 而 在 死 锁 检测 策略 中 ， 需 要 结合 可 消费 和 可 重用 
资源 的 分 析 技 术 。 虽 然 这 里 并 不 包括 一 般 资 源 图 (general resource graph) 的 正式 定义 以 及 检测 死 锁 的 分 
析 ， 但 这 种 系统 中 的 资源 集合 ， 是 由 可 消费 资源 和 可 重用 资源 的 结合 确定 的 。 在 一 般 资 源 图 中 ， 死 锁 的 充 
要 条 件 是 可 消费 和 可 重用 资源 图 中 死 锁 条 件 的 结合 ， 其 中 在 每 种 不 同 资源 类 型 中 使 用 的 规则 ， 应 用 到 一 般 
资源 图 中 相应 的 资源 子 集 上 。 检 测 分 析 也 分 别 通过 对 所 有 可 重用 资源 使 用 可 重用 资源 图 化 简 ， 对 所 有 可 消 
费 资源 使 用 可 消费 资源 图 化 简 进 行 。 如 果 存 在 一 个 没有 死 锁 的 状态 ， 那 么 其 可 重用 资源 通过 化 简 必 须 完全 
被 孤立 。 并 且 ， 可 消费 资源 图 必须 有 一 个 序列 ， 能 够 证 明 每 个 进程 没有 被 阻塞 在 任 一 可 消费 资源 上 。 

例如 ， 假 设 有 一 个 一 般 资源 图 如 图 10-30a) 所 示 。 设 Re MR 为 可 重用 资源 ，R, 为 可 消费 资源 ， 进 
TE po 和 zz 都 是 Ri 的 生产 者 。b) 部 分 是 通过 zs 化 简 后 得 到 的 图 ，zs 的 所 有 请 求 边 和 获得 边 都 去 掉 了 ， 
因而 Ro 的 3 个 单元 都 是 可 用 的 。 在 c) 部 分 ,我 们 已 通过 进程 po 化 简 ， 它 是 可 消费 资源 Ri 的 生产 者 ， 
BE po 的 请 求 边 ， 标 明 它 将 获得 并 释放 Ro 的 2 个 单元 。 当 移 走 从 R 到 po 的 生产 边 后 ，Ri 的 可 用 单元 
数 就 会 增长 为 一 个 任意 数目 ， 从 而 能 够 满足 所 有 可 能 对 R 资源 的 需要 。 尽 管 图 10-30 中 没有 表现 化 简 过 
程 ， 下 一 步 我 们 可 以 通过 pi 进行 化 简 ， 最 后 通过 ps 进行 化 简 。 图 10-30a) 中 所 示 的 状态 不 是 死 锁 状态 。 


Q ， G) OF 


可 重用 资源 可 消费 资源 可 重用 资源 
a) b) 





c) 


图 10-30 一 般 资源 图 
注 : 这 个 一 般 资源 图 中 有 可 消费 资源 和 可 重用 资源 ， 它 并 不 是 一 个 死 锁 状态 。 








10.5.4 恢复 


一 旦 系统 中 检测 到 死 锁 ， 系 统 将 通过 将 状态 改变 到 一 个 没有 死 锁 进程 的 状态 来 进行 恢复 。 当 然 ， 这 意 
味 着 一 个 或 多 个 进程 将 被 剥夺 从 而 释放 它们 的 资源 ， 使 其 他 死 锁 状态 的 进程 变 成 非 阻 塞 。 在 一 些 情形 中 ， 
恢复 机 制 可 能 使 用 一 般 资源 图 来 选择 要 结束 的 进程 。 更 为 典型 的 是 ， 操 作 员 简单 地 开始 杀 进 程 ， 直 到 系统 
又 呈现 操作 状态 为 止 。 而 粗暴 的 方法 是 重启 整个 机 器 ， 因 而 结束 所 有 的 进程 ， 尽 管 其 实 只 需要 释放 死 锁 进 
程 的 资源 就 可 以 了 。 如 前 面 所 讲 ， 当 需要 剥夺 一 个 进程 的 资源 时 ， 通 常会 简单 地 结束 进程 。 然 而 ， 有 时 进 
程 可 以 被 移 走 ， 而 无 需 破 坏 它 已 经 完成 的 所 有 工作 。 这 可 以 通过 将 检查 点 或 回 退 (checkpoint/rollback) 机 
制 结 合 到 系统 中 来 实现 ， 通 过 这 些 机 制 ， 一 个 进程 可 以 定期 地 得 到 它 的 当前 状态 的 瞬间 图 称 为 检查 
点 。 操 作 系统 保存 进程 的 检查 点 ， 然 后 进程 继续 它 的 活动 。 如 果 操 作 系统 检测 到 一 个 进程 卷 人 死 锁 中 ， 就 
结束 该 进程 ， 从 而 释放 它 的 资源 给 其 他 进程 来 使 用 。 接 下 来 ， 系 统 将 基于 保存 的 检查 点 信息 ， 重 新 建立 结 
束 进程 的 状态 (包括 重新 分 配 资源 和 重 写 文件 回 到 它们 以 前 的 状态 ) ，' 从 上 次 检查 点 的 位 置 重新 运行 进程 。 
这 种 方法 称 为 “将 进程 回 退 到 检查 点 ”"， 它 已 经 在 数据 库 管 理 系统 中 被 广泛 应 用 ， 因 而 它 已 经 比较 成 熟 了 。 

在 进程 被 结束 后 ， 死 锁 检 测算 法 又 被 激活 ， 来 查看 恢复 是 否 成 功 。 如 果 成 功 ， 则 系统 继续 正常 操作 ; 
如 果 没 有 成 功 ， 然 后 剥夺 另 一 进程 所 占有 的 资源 。 恢 复 算法 最 终 将 会 使 得 系统 能 够 继续 正常 的 操作 。 


10.6 小 结 


死 锁 是 一 种 情形 ， 如 果 没 有 恢复 动作 ， 其 中 的 一 个 或 多 个 进程 将 不 会 运行 结束 。 可 以 通过 对 资源 管理 
器 进 行 设计 ， 让 它 破 坏 造 成 死 锁 的 四 个 条 件 ( 互 斥 、 占 有 并 等 待 、 循 环 等 待 以 及 非 剥 夺 ) 中 的 任意 一 个 来 
预防 死 锁 。 死 锁 预 防 在 批 处 理 系统 中 有 效 ， 但 通常 在 分 时 系统 和 其 他 的 交互 系统 中 不 可 行 。 

进程 资源 状态 模型 提供 了 一 种 独立 于 处 理 死 锁 策略 的 定义 死 锁 的 框架 。 模 型 允许 根据 状态 图 ， 准 确 地 
定义 死 锁 ， 状 态 图 在 随后 的 死 锁 避免 和 检测 恢复 的 讨论 中 也 被 多 次 使 用 。 

通过 使 用 另外 的 信息 ， 如 每 个 进程 对 每 种 资源 类 型 的 最 大 需求 量 ， 可 以 避免 死 锁 ， 从 而 不 会 把 系统 导 
人 一 个 非 安全 状态 。 银 行家 算法 是 典型 的 死 锁 避免 算法 。 它 直观 上 类 似 于 银行 提供 限额 贷款 给 客户 的 操 
作 ， 尽 管 有 时 限额 贷款 的 总 和 超过 了 银行 的 总 资源 。 类 似 地 ， 银 行家 算法 中 也 使 用 最 大 资源 需求 数 ， 来 确 
定 一 个 分 配 操作 是 否 会 导致 资源 管理 器 出 现 可 能 发 生死 锁 的 状态 。 银 行家 算法 可 以 有 效 地 执行 与 死 锁 检测 
算法 的 图 化 简 算法 中 同样 的 操作 。 由 于 死 锁 避 免 策略 过 于 保守 ， 因 而 在 当代 操作 系统 中 很 少 使 用 。 

在 系统 的 可 重用 资源 和 可 消费 资源 中 ， 其 死 锁 检测 和 恢复 策略 是 不 同 的 。 在 检测 算法 中 ， 使 用 图 化 简 
来 研究 从 被 分 析 的 状态 开始 进行 的 状态 变换 。 图 化 简 的 步骤 细节 取决 于 化 简 是 在 可 消费 资源 还 是 可 重用 资 
源 上 进行 。 一 旦 一 个 状态 被 确定 为 死 锁 ， 操 作 系统 将 激活 恢复 算法 ， 消 除 涉及 死 锁 的 进程 ， 直 到 死 锁 的 条 
件 不 再 成 立 。 

本 章 结束 了 有 关 进 程 管理 的 讨论 。 下 一 章 将 开始 全 面 讨论 存储 管理 。 


10.7 习题 


1. 为 下 面 的 每 个 条 件 画 一 个 如 图 10-2 所 示 的 模型 。 指 出 在 这 种 情形 下 是 否 有 死 锁 。 假 定 每 种 资源 类 
型 仅 有 一 个 单元 : 
a. 进程 1 持 有 资源 1 并 且 请 求 资源 2; 进程 2 持 有 资源 2 并 请 求 资源 3; 进程 3 持 有 资源 3 并 请 求 
资源 4; 进程 4 持 有 资源 4 并 请 求 资源 1。 
b. 进程 1 持 有 资源 1 并 请 求 资源 3; 进程 2 持 有 资源 2 并 请 求 资源 3; 进程 3 持 有 资源 3 并 请 求 资 
源 4; 进程 4 持 有 资源 4 并 请 求 资源 2。 ， 
c. 进程 1 持 有 资源 1 并 请 求 资源 3; 进程 2 持 有 资源 2 并 请 求 资源 3; 进程 3 持 有 资源 3 并 请 求 资 
源 4; 进程 4 持 有 资源 4。 
2. 提供 不 同 进程 内 的 线程 出 现 死 锁 的 情形 ， 并 提供 同一 进程 内 的 两 个 线程 出 现 死 锁 的 情形 。 试 图 使 
用 真实 资源 〈 像 文件 ) 的 实例 。 
3. 假定 有 3 个 人 排队 等 候 百 货 公 司 开门 营业 。 当 门 打 开 时 ，3 个 人 都 朝 门 口 冲 去 ， 但 是 门 不 够 大 ， 他 
们 3 人 不 能 同时 通过 。 描 述 解决 这 种 死 锁 的 办 法 . 可 以 让 3 个 人 都 通过 这 扇 门 。 说 明 你 的 解决 方法 
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中 消除 了 哪个 必要 的 死 锁 条 件 ? 


. 在 音乐 CD 商场 中 ， 有 时 订购 会 出 现 死 锁 ， 因 为 两 个 不 同 的 订单 想 要 两 个 不 同 CD 的 最 后 两 张 。 例 


如 ， 两 个 人 可 以 同时 订购 Percy Faith 的 “More Themes for Young Lovers” 和 Carlos Santana 的 “Su- 
per Natural”， 但 是 在 库存 中 每 一 种 唱片 仅 有 一 张 。 一 个 订购 得 到 Percy Faith CD， 另 一 个 得 到 Car- 
los Santana CD， 这 样 就 出 现 了 死 锁 。 在 这 种 情形 中 ， 商 场 应 该 遵循 什么 策略 来 解决 死 锁 ? 


. 重新 考虑 图 10-7 中 的 状态 图 ， 假 定 有 两 个 进程 共享 两 种 资源 类 型 ， 每 种 资源 类 型 有 两 个 资源 单元 。 


对 这 个 系统 画 一 幅 状 态 图 〈 使 用 本 章 例子 中 使 用 的 资源 管理 模型 ) 。 


6. 在 图 10-7 所 示 的 状态 图 中 标识 出 安全 、 不 安全 和 死 锁 状态 。 


8. 


9. 
10 


11. 


12. 


13. 


. 假定 一 个 系统 具有 四 个 资源 类 型 ，C= <6，4，4，2> ， 最 大 资源 需求 数 表 如 图 10-31 所 示 。 资 源 


分 配器 根据 图 10-32 中 的 表 来 分 配 资源 ， 这 个 状态 是 安全 的 吗 ? 为 什么 ? 





























图 10-31 最 大 资源 需求 数 表 图 10-32 ”当前 分 配 表 


重新 考虑 图 10-7 中 的 状态 变换 图 ， 用 语言 或 图 来 描述 一 个 类 似 系 统 的 状态 变换 图 ， 其 中 系统 中 有 
3 个 进程 ， 有 2 个 单元 数 的 单 种 资源 。 说 明 图 中 有 多 少 死 锁 状态 ? 
基于 本 章 所 学 的 内 容 解释 一 下 如 何 改变 图 8-10 中 的 代码 段 ， 从 而 死 锁 就 不 会 发 生 。 


. 如 果 使 用 死 锁 预防 策略 使 循环 等 待 条 件 无 效 (10.3 节 )， 提 出 避免 9,2 PTR MR 


用 问题 的 启发 性 建议 。 

一 个 系统 由 四 个 进程 1p!，p，，p3，ps| 构成 ， 并且 有 三 种 顺序 可 重用 资源 |R1，R，，R3|， 各 
个 资源 的 单元 数目 分 别 为 C=<3, 2, 2>, 

Bt p1 占有 1 个 单元 的 Ri 并 请 求 1 个 单元 的 Rao 

E p 占有 2 个 单元 的 R 并 请 求 R WR; 中 的 各 1 个 单元 。 

m p3 占有 1 个 单元 的 R 并 请 求 1 个 单元 的 Rao 

Bo, GA 2 个 单元 的 R; 并 请 求 1 个 单元 的 Rio : 

说 明 表 示 系 统 状态 的 可 重用 资源 图 ， 说明 图 的 化 简 。 如 果 有 死 锁 ， 该 状态 中 哪 一 些 进程 是 死 
锁 的 ? 

一 个 系统 由 四 个 进程 lp, pr, ps, pal 构成 ， 并 且 有 三 种 可 消费 资源 IR Ro, Ra}, Ri 和 
R: 分 别 有 一 个 单元 可 用 。 

B p 请 求 1 个 单元 的 R 和 1 个 单元 的 R;。 

B p 生产 R 和 R33， 并 请 求 1 个 单元 的 Rao 

E p: 请 求 1 个 单元 的 R 和 1 个 单元 的 Rz 

E p, 生产 R,， 并 请 求 1 个 单元 的 Ra。 

说 明 表示 系统 状态 的 可 消费 资源 图 。 如 果 有 死 锁 ， 该 状态 中 哪 一 些 进程 是 死 锁 的 ? 

一 个 系统 由 四 个 进程 p1, p2, pss pa) 构成 ， 且 有 两 种 顺序 可 重用 资源 |S,，S,|， 资 源 的 单 
元 数目 分 别 为 2 和 3; 两 种 可 消费 资源 C., Ci, C 和 C, 分 别 有 一 个 单元 可 用 。 

u p 生产 C1 并 请 求 2 个 单元 的 Sz 

加 p2 SA 2 个 单元 的 S1 和 1 个 单元 的 S;， 同 时 请 求 2 个 单元 的 Co 

Bo, 占有 1 个 单元 的 S, HER 1 个 单元 的 Ci。 . 

E ps 生产 C: ， 并 请 求 1 个 单元 的 C 和 1 个 单元 的 S1。 

说 明 表 示 系 统 状 态 的 一 般 资 源 图 。 如 果 有 死 锁 ， 该 状态 中 哪 一 些 进程 是 死 锁 的 ? 





第 11 章 存储 管理 . 


存储 系统 包括 计算 机 中 所 有 用 来 存储 信息 的 部 分 。 它 分 为 主 存 和 辅 存 : 主 存 (也 称 可 执行 内 存 ) 保存 
着 正在 被 CPU AN. HA (LEME) 是 一 组 外 部 存储 设备 。 主 存 一 次 只 引用 1 个 字 节 ， 它 要 比 
辅 存 的 访问 时 间 快 得 多 ， 是 一 种 易 失信 息 的 存储 形式 〈 当 计算 机 掉 电 时 ， 它 的 内 容 会 丢失 )。 辅 存 是 一 种 
永久 性 存储 器 ( 当 计 算 机 掉 电 时 ， 它 的 内 容 不 会 丢失 )， 它 是 以 字 节 块 为 单位 来 引用 的 ， 相 对 来 说 访问 时 
间 比 较 慢 。 在 现代 应 用 编程 中 遇 到 的 挑战 是 ， 在 CPU 执行 要 使 用 程序 和 信息 时 ， 将 这 些 程序 和 数据 保持 
在 主 存 中 ， 而 在 它们 被 使 用 或 更 新 后 ， 就 马上 将 信息 写 回 到 辅 存 中 。 如 果 这 个 问题 得 以 解决 ， 进 程 或 线程 
就 能 有 效 地 使 用 主 存 ， 它 的 性 能 相对 来 说 也 比较 高 。 同 时 ， 由 于 冲突 或 不 一 致 性 而 丢失 被 处 理 信息 的 危险 
相对 来 说 也 降低 了 。 

存储 管理 器 是 主 存 的 资源 管理 器 ， 它 为 进程 分 配 主 存 块 ， 它 也 管理 实现 主 存 隔离 和 控制 共享 的 操作 系 
统 机 制 。 最 后 ， 现 代 存储 管理 器 使 用 虚拟 存储 器 (virtual memory) 技术 在 主 存 和 辅 存 间 自 动 传输 信息 。 本 
章 着 重 于 介绍 存储 管理 器 设计 的 基本 问题 。 在 下 一 章 中 ,我 们 会 介绍 现代 存储 管理 器 是 如 何 扩展 基本 的 功 
能 来 实现 虚拟 存储 器 的 。 


11.1 基本 知识 


一 般 来 说 ， 办 公 人 员 使 用 一 种 存储 层次 来 管理 他 们 的 信息 ( 见 
图 11-1)。 办 公 室 工 作 人 员 的 桌面 在 层次 的 顶部 ， 需 要 用 来 完成 当前 
任务 的 信息 保存 在 桌面 ， 当 信息 此 时 没有 被 使 用 时 ， 但 相对 来 说 还 
是 比较 频繁 地 使 用 ， 就 将 信息 保存 在 文件 夹 中 。 当 工作 人 员 想 要 使 
用 文件 夹 中 的 信息 时 ， 就 将 它 拿 到 桌面 上 ， 利 用 它 的 内 容 来 完成 工 
作 。 如 果 文 件 夹 不 常 使 用 ， 就 将 它 放 置 在 文件 柜 中 ,文件 柜 中 的 信 
息 的 访问 频率 要 比 文件 夹 中 的 信息 低 。 文 件 柜 在 存储 层次 中 处 于 低 
层 。 在 这 个 办 公 室 例子 中 ， 存 储 层次 的 最 低层 是 仓库 ， 在 不 久 的 将 
来 对 信息 没有 访问 计划 时 ， 才 将 信息 存储 在 仓库 中 ,但 是 它 不 应 该 
被 损坏 。 

冯 : 诺 依 曼 计算 机 中 的 存储 部 件 也 是 以 存储 层次 结构 来 组 织 的 ， 
存储 层次 至 少 有 三 级 ( 见 图 11-2 和 第 4 章 )。 最 高 层 是 CPU 寄存 器 ， 





中 间 层 是 主 存 (可 执行 内 存 )， 最 低层 是 辅 存 。 和 办 公 室 中 的 存储 层 图 11-1 存储 层次 

次 相似 ， 存 储 层次 中 的 最 高 层 (如 桌面 ) 的 存 取 速度 非常 快 ， 但 是 注 : 办 公 室 使 用 存储 层次 来 管 
它 的 容量 有 限制 。 靠 近 存储 层次 的 底层 (如 文件 柜 ) 的 容量 相对 来 理 信息 。 频 繁 使 用 的 信息 
说 大 一 些 , 但 是 访问 速度 相对 来 说 也 慢 一 些 。 在 存储 层次 的 底层 ， 保存 在 桌面 上 ， 不 常 使 用 
可 以 将 大 容量 的 信息 进行 永久 性 存储 (以 年 来 计算 )。 在 存储 层次 的 的 信息 保存 在 文件 夹 、 文 
最 底层 ， 由 于 存储 媒体 的 成 本 起 决定 作用 ， 所 以 磁带 设备 仍然 在 广 件 柜 和 长 期 的 存储 设备 中 。 


泛 使 用 ， 尽 管 它 的 访问 速度 非常 慢 并 且 相 对 于 光盘 和 磁盘 设备 来 说 ， 磁 带 的 容量 也 有 限 。 

ALU 可 以 在 一 个 机 器 时 钟 周期 内 使 用 存储 在 CPU 寄存 器 中 的 信息 。CPU 可 以 使 用 load 和 store 指令 
在 几 个 时 钟 周期 内 访问 主 存 。 而 辅 存 通过 外 存 设备 来 实现 ， 因 而 访问 中 涉及 驱动 程序 和 物理 设备 的 活动 。 
这 意味 着 访问 辅 存 所 用 的 时 间 要 比 访问 可 执行 存储 器 高 出 至 少 3 个 数量 级 或 更 多 。 

当代 计算 机 在 存储 层次 中 有 许多 层 ， 包 括 缓存 和 不 同形 式 的 辅 在 ， 如 旋转 磁性 存储 器 、 光 存储 器 以 及 
顺序 访问 存储 器 ( 见 图 11-3)。 然 而 ， 每 一 层 实 际 上 仅仅 是 图 11-2 中 描述 的 三 层 (CPU 寄存 器 、 主 存 和 畏 
存 ) 的 细 化 。 
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存储 管理 器 〈 见 图 11-4) 是 操作 系统 的 第 三 个 主要 组 件 。 i A 


展 。 在 早期 的 多 道 程序 设计 系统 中 ， 存 储 管理 器 
就 是 用 来 对 主 存 进行 空 分 复 用 的 资源 管理 器 。 随 
着 多 道 程序 设计 技术 的 广泛 使 用 ， 存 储 管理 器 需 
要 提供 可 靠 的 隔离 机 制 来 阻止 一 个 进程 读 写 另 一 
个 进程 的 主 存 。 存 储 管理 器 的 附加 功能 使 得 进程 
间 可 以 共享 为 它们 分 配 的 主 存 。 

当代 存储 管理 器 继续 执行 管理 主 存 的 经 典 功 
能 。 另 外 ， 它 们 开发 了 存储 层次 。 存 储 层次 通常 
保持 有 信息 的 多 份 拷贝 : 粗略 地 说 ， 信 息 的 来 源 
是 存储 在 辅 存 中 的 信息 。 为 了 减少 CPU 访问 信 
息 的 时 间 ， 信 息 被 读 人 主 存 和 CPU 寄存 器 。 当 
CPU 上 运行 的 软件 需要 使 用 信息 时 ， 信 息 被 放 
置 在 主 存 中 。 例 如 ， 顾 客 帐 户 信息 一 般 来 说 保存 
在 外 存储 设备 的 文件 中 。 (这些 文 件 被 周期 性 地 
备份 到 更 低级 的 存储 设备 中 ， 如 果 在 线 存 储 设备 


不 常用 信息 


ea Pee 
常用 信息 
辅 存 
(如 磁盘 ,磁带 ) 


图 11-2 基本 的 存储 层次 


TE: 冯 : 诺 依 曼 计算 机 的 存储 层次 分 为 三 层 。CPU 中 的 寄存 


器 表示 了 计算 机 存储 器 的 最 高 层 。 主 存 (如 RAM) 为 
中 间 层 。CPU 可 对 存储 器 中 的 单个 字 节 进行 存 取 。 外 存 
储 没 备 实现 辅 存 , 设备 I/O 操 作用 来 访问 辅 存 中 的 信 
息 ， 所 以 对 辅 存 的 访问 速度 要 比 主 存 低 好 几 个 数量 级 。 


骨 溃 了 或 需要 对 旧 的 信息 进行 核查 ， 可 以 使 用 这 些 文件 来 恢复 。) 当 顾 客 帐户 需要 更 新 时 ， 辅 存 中 文件 的 
记录 被 拷贝 到 主 在 中。 当 CPU 要 实际 更 新 一 个 记录 时 ， 它 将 主 存 中 记录 的 域 拷贝 到 CPU 寄存 器 中 ,在 


CPU 寄存 器 中 的 信息 被 更 新 后 ， 它 更 新 主 存 中 记录 的 拷贝 。 在 其 后 的 某 个 时 间 ， 





中 。 一 旦 一 个 高 层 的 拷贝 被 写 回 存储 层次 的 底层 中 ， 高 层 拷贝 可 以 被 删除 (因为 它 是 元 余 的 了 )。 





bl 


(=. LI | “志高 速 缓存 | 
L2 高 速 缓存 ee 








EX E Ee, 
储 空间 速度 





辅 存 


Ge 


旋转 磁性 存储 器 


顺序 访问 存储 设备 






图 11-3 存储 层次 
注 : 存储 设备 和 缓存 技术 被 引入 到 多 层 存储 层次 中 ， 当 代 的 微 处 理 器 芯片 可 包含 两 级 或 多 级 缓存 。 有 许多 可 用 
的 辅 存 设备 能 用 来 实现 层次 中 的 另 一 部 分 ， 如 从 硬盘 到 DAT 磁带 设备 。 


现代 存储 管理 器 〈 虚 拟 存储 管理 器 ) 自动 地 在 主 存 和 辅 存 间 来 回 地 传送 信息 。 这 意味 着 程序 员 并 不 需 
要 读 写 文件 来 拷贝 信息 : 存储 管理 器 在 需要 时 将 信息 拷贝 至 主 存 中 ， 当 CPU 不 再 使 用 这 些 信息 时 ， 要 更 


新 辅 存 并 释放 主 存 拷贝 。 


记录 被 写 回 到 辅 存 的 文件 
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exec() VirtualAlloc() 
shmalloc() sbrk() vVMQuery ( ) VirtualFree() 
getrlimit() VirtualLock(} 
zZeroMemory () 


BE | BE | BG 
AR | BR | R 
a | a | 各 
W | SE | a 
BS | ae | 


Windows 


me 
Ri 





图 11-4 存储 管理 器 的 扩展 视图 
注 : 存储 管理 器 提供 了 许多 系统 调用 来 管理 存储 器 。 尽 管 UNIX 和 Windows 操作 系统 都 采纳 了 存储 管理 器 ， 但 它 
们 提供 了 完全 不 同 的 系统 调用 。 


存储 管理 器 的 系统 调用 接口 常常 仅 包含 了 少数 的 函数 : 用 来 请 求 和 释放 主 存 空间 的 调用 、 将 程序 加 载 
到 存储 空间 中 的 调用 ， 以 及 共享 存储 块 的 调用 。 当 代 存 储 管理 器 也 提供 了 控制 虚拟 存储 器 抽象 行为 的 系统 
调用 。 
经 典 存储 管理 器 通过 实现 下 述 功能 来 解决 主 存 管理 ， 
里 抽象 。 主 存 被 抽象 使 得 软件 认为 分 配给 它 的 存储 器 是 一 个 大 的 连续 地 址 空间 的 数组 。 进 程 地 址 空间 
的 概念 就 是 抽象 的 主要 例子 ， 因 为 它 允许 进程 使 用 一 组 抽象 地 址 来 引用 物理 主 存储 器 单元 。 
量 分 配 。 进 程 可 以 请 求 对 存储 块 的 独占 性 使 用 。 当 有 请 求 时 ， 由 存储 管理 器 的 资源 管理 器 部 分 来 分 配 
主 存 ， 并 处 理 对 存储 器 的 释放 。 
曙 隔离 。 当 连续 地 址 字 节 块 被 分 配给 进程 时 ， 进 程 要 确保 对 这 些 存储 单元 的 独占 性 使 用 。 
嘿 共享 。 存 储 管理 器 可 允许 两 个 或 多 个 进程 间 共 享 主 存 块 。 在 这 种 情况 下 ， 它 越过 了 隔离 机 制 允许 共 
享 访问 。 
现代 管理 器 支持 虚拟 存储 ， 意 味 着 存储 管理 器 能 自动 地 在 不 同 存储 层次 中 移动 信息 。 (文件 管理 器 分 配 和 
释放 辅 存 ， 并 提供 外 存储 设备 的 资源 抽象 ， 见 第 13 章 。) 


11.2 ”地址 空间 抽象 


存储 管理 器 随 着 操作 系统 和 硬件 技术 的 发 展 而 发 展 。 然 而 ， 有 关 存储 的 API 和 1950 年 使 用 的 大 约 是 
相同 的 。 一 个 线性 地 址 空间 被 赋予 进程 ， 用 于 读 写 主 存 中 的 字 节 数组 。 在 早期 的 操作 系统 中 ， 程 序 员 使 用 
的 线性 地 址 空间 是 物理 主 存 地 址 空间 。 可 执行 程序 可 以 直接 访问 机 器 中 的 任何 主 存 地 址 。 

到 20 世纪 60 年 代 ， 多 道 程序 设计 操作 系统 引进 了 主 存 的 抽象 ， 每 个 进程 被 提供 了 -组 逻辑 主 存 地 
址 ， 可 以 使 用 它 来 读 写 物 理 主 存 中 的 地 址 内 容 。 可 访问 的 地 址 由 存储 管理 器 来 分 配给 进程 ( 见 图 11-5), 
我 们 将 这 组 逻辑 主 存 地 址 称 为 进程 地 址 空间 ， 当 一 个 线程 在 进程 中 执行 时 ， 它 可 以 使 用 任何 逻辑 主 存 地 址 
来 引用 物理 主 存 的 特定 块 。 例 如 ， 如 果 存储 管理 器 为 进程 分 配 0x20000 到 0x30000 的 物理 主 存 地 址 ， 进 程 
会 使 用 钦 辑 地 址 0x00007 来 引用 物理 主 存 地 址 0x20007 (如 第 6 章 中 所 讨论 的 ， 进 程 地 址 空间 中 的 一 些 地 
址 对 应 为 对 象 而 不 是 主 存 地 址 ， 见 图 6-4)。 抽 条 取决 于 进程 地 址 空间 的 存在 和 将 逻辑 主 存 地 址 绑 定 到 物理 
主 存 地 址 的 系统 机 制 。 存 储 管理 器 建立 了 抽象 来 支持 地 址 空间 和 地 址 绑 定 。 


11.2.1 管理 地 址 空间 
当 程序 准备 执行 时 ， 它 被 翻译 成 机 器 可 执行 的 格式 ( 见 图 11.6) 。 在 编译 程序 环境 中 ， 源 程序 在 编译 
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时 (compile time) 进行 编译 并 产生 可 重 定位 的 目标 代码 。 一 组 可 重 定位 模块 在 链接 时 (link time) 使 用 链 
接 器 来 产生 一 个 绝对 (或 加 载 ) 模块 。 绝 对 模块 的 组 织 结构 定义 ” 进程 逻辑 
了 进程 地 址 空间 ， 进 程 可 以 使 用 地 址 空间 来 引用 程序 的 指令 、 数 EE 物理 主 存 
HE FURL. 

绝对 程序 存储 在 文件 (在 辅 存 ) 中 ， 直 到 进程 准备 使 用 它 。 
在 进程 从 存储 管理 器 获得 一 块 主 存 之 后 ， 它 调用 系统 加 载 器 来 
将 绝对 程序 载 人 主 存 块 ， 绝 对 程序 使 用 逻辑 地 址 ， 所 以 它 被 构建 
成 好 像 是 在 存储 位 置 0 处 加 载 和 执行 的 。 每 个 地 址 是 逻辑 地 址 而 
不 是 物理 主 存 地 址 。 加 载 器 通过 修改 被 加 载 模块 中 的 每 个 逻辑 
地 址 来 将 逻辑 地 址 绑 定 到 物理 地 址 ， 这 样 ， 就 可 以 使 用 逻辑 地 址 / 
来 引用 分 配 主 存储 块 内 相应 的 物理 存储 地 址 。 加 载 器 然后 将 修 
改过 的 绝对 程序 拷贝 到 主 存 块 中 。 我 们 来 看 看 在 翻译 过 程 的 不 BAA 
同 阶段 是 如 何 管理 地 址 的 : 

编译 时 间 

编译 器 将 源 程序 转换 成 可 重 定位 代码 (也 称 为 可 重 定位 目 ”图 11-5 ”地址 空间 与 主 存 间 的 关系 
标 模块 )。 在 C 程序 设计 模型 中 ， 可 重 定位 目标 模块 有 三 个 逻辑 E: 当 一 个 主 存 块 被 分 配给 一 个 进程 
地 址 块 : 文本 (代码 ) 段 、 数 据 段 和 栈 自 。 代 码 段 (code seg- 时 ， 进 程 地 址 空间 对 应 于 相应 的 
ment) 是 机 器 指令 块 ， 数 据 段 (data segment) 是 静态 变量 块 ， 物理 存储 地 址 块 。 
栈 段 〈stack segment) 表示 程序 执行 时 使 用 的 栈 。 





图 11-6 多 个 段 


注 : 源 程序 转换 系统 建立 了 一 个 绝对 程序 ， 它 指定 了 一 组 在 程序 执行 时 需要 的 逻辑 地 址 。 编 译 器 将 源 程序 翻译 
成 可 重 定位 代码 。 链 接 器 联合 可 重 定位 代码 模块 生成 一 个 绝对 的 程序 。 在 主 存储 块 被 分 配给 进程 后 ， 加 载 
器 将 进程 地 址 空间 绑 定 到 相应 的 物理 存储 地 址 ， 然 后 将 程序 拷贝 到 主 存 中 。 进 程 准备 执行 程序 。 


编译 器 将 所 有 翻译 过 的 机 器 指令 写 人 代码 段 。 考 虑 可 重 定位 对 象 模块 中 的 过 程 人 口 点 ， 一 般 而 言 ， 纺 
译 器 不 能 确定 人 口 点 的 地 址 ， 因 为 目标 过 程 可 能 在 不 同 的 可 重 定位 模块 中 。 例 如 ， 如 果 目 标 是 库 例 程 ， 如 
printf () ， 目 标 函 数 在 系统 软件 建立 时 就 编译 好 了 。 由 于 在 编译 时 并 不 知道 目标 模块 地 址 ， 所 以 目标 函 
数 不 能 被 绑 定 ， 直 到 链接 器 将 调用 函数 的 模块 与 定义 函数 的 模块 链接 为 止 。 编 译 器 将 注 明 对 每 个 外 部 地 址 
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的 引用 ， 使 得 链接 器 在 链接 时 可 以 确定 在 绝对 程序 中 外 部 引用 的 地 址 ， 并 能 将 正确 的 地 址 填 人 代码 中 。 

现在 考虑 静态 变 基 在 源 程序 中 是 如 何 处 理 的 。( 即 使 静态 变量 出 了 作用 域 ， 它 仍然 保持 最 后 一 次 存储 
的 值 。) 在 编译 时 ， 编 译 程序 生成 代码 在 数据 段 为 静态 变量 分 配 存储 位 置 ， 然 后 指令 中 使 用 数据 段 中 的 相 
对 地 址 来 引用 变量 。 但 如 果 是 一 个 C 语 言 的 自动 变量 ， 编 译 器 会 产生 代码 在 运行 时 栈 中 分 配 变 量 。(C 类 
型 的 自动 变量 仅 当 变量 在 作用 域 中 时 被 定义 并 使 用 ， 如 果 变 量 出 了 作用 域 然后 回 到 作用 域 ， 它 不 会 保持 旧 
HL.) 自动 变量 的 存储 空间 会 在 程序 执行 时 动态 创建 和 释放 ， 所 以 编译 器 会 产生 相对 于 栈 的 底部 〈 而 不 
是 数据 段 地 址 ) 的 变量 指针 。 

链接 时 间 

在 链接 时 ， 每 个 可 重 定位 对 象 模块 的 代码 段 和 数据 段 联合 形成 绝对 程序 。 链 接 器 会 将 所 有 的 数据 段 联 
合成 单个 的 数据 段 ， 并 将 所 有 的 代码 段 联合 成 单个 的 代码 段 。 当 数据 段 被 合并 时 ， 各 静态 变量 的 相对 地 址 
将 改变 。 链 接 器 然后 重 定位 指令 中 的 地 址 ， 使 得 它们 引用 合并 的 数据 段 中 的 新 地 址 。 链 接 器 然后 对 人 口 点 
引用 与 合并 代码 段 中 定义 的 人 口 点 地 址 进行 匹配 。 在 合并 可 重 定位 模块 时 ， 所 有 未 定义 的 地 址 引用 最 后 会 
被 链接 器 发 现 ， 最 终 的 组 合 模块 包括 了 所 有 的 程序 文本 和 数据 ， 这 样 每 个 数据 的 引用 或 程序 人 口 点 的 引用 
都 被 解决 了 。 绝 对 模块 可 以 存储 在 文件 中 〈 在 辅 存 中 ) 直到 它 被 执行 。 

加 载 时 间 | 

在 加 载 一 个 绝对 程序 之 前 ， 存 储 管理 器 会 分 配 一 块 主 存 给 进程 。 然 后 加 载 器 将 绝对 程序 和 数据 拷贝 到 
分 配 的 存储 器 中 。 注 意 ， 绝 对 模块 的 代码 段 部 分 中 的 地 址 需要 再 次 调整 (回忆 图 11-5)。 链 接 器 将 绝对 程 
序 中 的 所 有 地 址 设置 成 好 像 模块 是 从 主 存 位 置 0 处 加 载 的 。 然 而 ,模块 现在 是 在 主 存 中 的 一 个 特定 物理 地 
址 被 加 载 的 : 存储 块 中 的 首 地 址 需要 由 存储 管理 器 指定 。 加 载 器 转换 每 个 内 部 逻辑 主 存 地 址 ， 使 得 它 引用 
的 是 被 分 配 的 主 存 地 址 〈 而 不 是 数据 段 或 代码 段 的 偏 移 量 ) 。 

可 执行 程序 正好 在 加 载 到 合适 的 主 存 位 置 之 前 ， 被 转换 成 最 后 的 可 执行 形式 (硬件 控制 单元 所 期 望 
的 )。 当 PC (程序 计数 器 被 设置 为 程序 的 第 一 条 可 执行 指令 的 主 存 地 址 (main 入口 点 ) 时 ， 硬 件 开始 执 
行程 序 。 

如 上 所 述 ， 将 程序 使 用 的 地 址 与 主 存 中 的 物理 存储 位 置 相关 联 的 过 程 称 为 地 址 绑 定 。 传 统 上 ， 建 立地 
址 空间 并 绑 定 到 主 存 位 置 可 用 以 下 三 步 来 描述 编译 时 转换 ， 链 接 时 将 可 重 定位 目标 模块 进行 合并 ， 加 载 
时 〈 当 主 存 空间 分 配给 进程 时 ) 要 对 被 加 载 模块 进行 调整 。 这 种 特定 的 绑 定形 式 称 为 静态 地 址 绑 定 。 你 会 
在 11.4 节 中 看 到 ， 存 储 管理 器 会 将 地 址 绑 定 的 最 后 阶段 推迟 到 运行 时 。 下 面 的 关于 静态 地 址 绑 定 的 示例 
讨论 对 你 完全 理解 绑 定 过 程 将 十 分 有 用 。 在 考虑 动态 地 址 绑 定之 前 ， 我 们 来 考虑 一 下 经 典 存储 管理 器 的 其 
他 基本 功能 。 





示例 ;静态 地 址 绑 定 
传统 的 转换 和 加 载 过 程 是 在 编译 时 建立 可 重 定位 的 逻辑 存储 地 址 ， 并 在 链接 时 将 它 转换 成 绝对 程序 中 
的 逻辑 地 址 ， 最 后 在 加 载 时 将 逻辑 地 址 绑 定 到 物理 存储 地 址 。 例 如 ， 假 设 有 如 图 11-7 所 示 的 代码 段 。 
编译 器 将 在 proc _ a 的 可 重 定位 目标 模块 的 数据 段 中 ， 为 变量 var 分 配 空间 。 然而， 过 程 put _ 
record () 位 于 不 同 的 可 重 定位 目标 模块 中 ， 因 而 编译 器 不 能 解决 它 的 i 
地 址 问题 。 编 译 器 将 生成 一 个 类 似 于 图 11-8 所 示 的 可 重 定位 目标 模块 ， | static int gvar; 
编译 器 为 变量 gvar 在 相对 地 址 0036 处 保留 空间 ， 并 在 它 的 符号 表 中 记 | UN proc alint aroy 
录 这 个 值 。 (图 11-8 显示 了 在 可 重 定位 目标 模块 中 ， 在 相对 地 址 位 置 e 
0600 处 的 符号 表 。) 外 部 引用 和 定义 也 出 现在 可 重 定位 目标 模块 中 。 Sut record(gvar); 
E 赋值 语句 被 转换 成 了 一 对 指令 ， 先 用 load 将 “7” 装 人 寄存 器 中 ， z: 
然后 用 store 将 它 存 人 与 Var 相关 联 的 存储 单元 中 。 , J 
m 相对 地 址 0220 处 包含 着 指令 load， 它 将 常数 7 装 人 寄存 器 RI 中 。 ”图 11 7 一个 代码 段 例子 
相对 地 址 0224 处 包含 着 指令 store， 它 拷贝 R1 的 内 容 到 相对 地 址 。 注 ; 我 们 将 使 用 这 个 代码 
0036 处 一 一 通过 编译 器 将 该 存储 位 置 与 变量 Var 绑 定 在 一 起 。 段 来 解释 静态 地 址 绑 
m 当 编译 器 转换 函数 调用 时 ， 它 首先 使 用 位 置 0228 处 的 指令 ， 将 参 定 是 如 何 运作 的 。 
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数值 压 人 栈 中 。 

B 然后 ， 在 相对 地 址 0232 处 生成 一 条 指令 ， 来 完成 对 外 部 定义 的 人 口 点 的 函数 调用 。 

由 于 编译 器 没有 足够 的 信息 把 符号 put_ record 与 该 函数 和 人口 点 的 地 址 绑 定 在 一 起 ， 它 就 注释 相应 的 
操作 数 地 址 域 ， 使 链接 编辑 器 能 够 在 链接 时 完成 绑 定 操作 ， 并 在 引用 表 (reference table 或 ref table) 中 加 
人 相应 的 条 目 ， 以 供 链接 编辑 器 处 理 。 编 译 器 也 为 每 个 能 够 定义 的 外 部 符号 ， 如 入 口 点 ， 在 定义 表 
(definition table 或 def table) 中 加 入 相应 的 条 目 。 例 子 中 的 可 重 定位 模块 要 有 850 个 存储 单元 ， 其 中 包括 代 
码 、 数 据 以 及 表 。 

链接 编辑 器 将 图 11-8 中 所 示 的 可 重 定位 目标 模块 与 其 他 的 类 似 模块 绑 定 在 一 起 ， 包 括 一 个 包含 put _ 
record () 过 程 的 模块 。 结 果 形 成 一 个 如 图 11-9 所 示 的 绝对 模块 ， 这 是 通过 有 效 地 链接 所 有 相关 可 重 定位 
目标 模块 中 的 代码 段 和 数据 段 来 完成 的 。 调 整 可 重 定位 地 址 而 完成 绑 定 ， 从 而 它们 可 以 访问 相应 产生 段 内 
的 偏 移 。 当 链接 器 组 合 可 重 定位 模块 时 ， 所 有 的 外 部 引用 和 定义 都 会 由 链接 器 重新 协调 好 。 在 图 中 : 








代码 段 
相对 
地 址 生成 代码 
0000 
0008 entry proc a 
0220 load =7, R1 
0224 store R1, 0036 
0228 push 0036 
0232 call ‘put_record’ 
0400 External reference table 
0404 ‘put_record’ 0232 
0500 External definition table 
0540 ‘proc_a’ 0008 
0600 (symbol table) 
0799 (last location in the code segment) 
数据 段 

" 相对 
地 址 生成 的 变量 空间 
0036 [Space for gVar variable] 
0049 {last location in the data segment) 

L_ . 








图 11-8 可 重 定位 目标 模块 
È: 这 表示 了 图 11-7 所 示 源 代码 的 可 重 定位 目标 模块 。 在 这 个 表示 中 ，gVar 变量 在 数据 段 0036 地 址 处 ， 人 口 
点 在 代码 段 0008 地 址 处 。 


m 可 重 定 位 模块 代码 段 被 重 定位 到 绝对 程序 代码 段位 置 1000 处 ， 意 味 着 编译 时 在 位 置 0 处 的 可 重 定 
位 模块 中 的 第 一 个 存储 单元 要 绑 定 到 位 置 1000 处 。 

里 可 重 定位 模块 数据 段 被 重 定位 到 绝对 程序 数据 段位 置 100 处 ， 意 味 着 可 重 定位 模块 数据 的 第 一 个 位 
置 现在 被 绑 定 到 位 置 100 处 。 

m 这 个 调整 引起 模块 中 的 其 他 可 重 定 位 地 址 在 链接 时 间 内 重新 绑 定 。 例 如 ，gVar 的 地 址 从 0036 变 到 
0136， 因 而 在 操作 数 为 0036 的 存储 语句 中 ， 必 须 改 存储 RI 的 内 容 到 0136 而 不 是 0036。 

链接 编辑 器 必须 改变 所 有 的 可 重 定位 地 址 ， 使 得 在 加 载 模块 中 反映 新 的 绑 定 ; 这 时 ， 我 们 说 生成 了 绝 

对 模块 ， 它 的 第 一 个 地 址 为 存储 位 置 0000。 
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相对 

地 址 生成 的 代码 

0000 (Other modules) 

1008 entry proc_a 

1220 load =7, R1 

1224 store Rl, 0136 

1228 push 1036 

1232 call 2334 

1399 (End of proc_a) 

wee (Other modules) 

2334 entry put_record 

2670 {optional symbol table) 

2999 (last location in the code segment) 

数据 段 

相对 

地 址 生成 的 变量 空间 

0136 [Space for gVar variable] 

1000 (last location in the data segment) 
图 11-9 绝对 程序 


注 : 这 幅 图 表示 了 由 链接 器 建立 的 绝对 程序 ， 它 结合 了 图 11-8 所 示 的 可 重 定位 程序 和 包含 了 外 部 引用 过 程 的 模块 。 


在 加 载 时 ， 绝 对 模块 将 再 次 调整 它 的 地 址 ， 这 样 才能 够 访问 包含 生成 映像 的 存储 位 置 。 例 如 ， 如 果 将 
加 载 模块 从 主 存 位 置 4000 处 开始 放置 (参见 图 11-10): 















物理 

地 址 生成 代码 

0000 (Other process's’ programs) 

4000 (Other modules) 

5008 entry proc_a 

5036 [Space for gvar variable] 

5220 load =7, R1 

§224 store Rl, 7136 

5228 push 5036 

5232 call 6334 : 

5399 (End of proc_a) 

wee (Other modules) 

6334 entry put_record 

6670 (optional symbol table) 

6999 (last location in the code segment) 
7000 (first location in the data segment) 
7136 [Space for gVar variable] 

8000 (Other process’s programs) 





图 11-10 在 位 置 4000 处 加 载 程 序 
TE: 这 幅 图 表示 了 图 11-9 所 示 绝 对 程序 加 载 到 主 存 位 置 4000 处 后 的 映像 。 
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n 程序 映像 将 必须 重新 绑 定 ， 现 在 代码 段 和 数据 段 被 组 合 到 主 存 地 址 空间 中 去 。 
E gVar 和 put _ record () 的 地 址 将 重新 绑 定 到 一 个 新 的 物理 存储 位 置 ， 并 且 程 序 中 所 要 访问 的 所 有 
程序 、 数 据 位 置 都 将 在 加 载 时 进行 调整 。 
E 现在 gar 将 存储 在 主 存 位 置 0136+ 7000= 7136, 并 且 put_ record () 的 入 口 点 将 会 是 2334 + 4000 
= 6334, 
指令 中 操作 数 的 地 址 将 在 程序 执行 之 前 的 最 后 时 间 里 绑 定 。 
tm 


11.2.2 用 于 数据 结构 的 动态 存储 


程序 设计 语言 中 常常 会 定义 一 种 便利 手段 ， 允 许 程序 管理 它 自己 的 部 分 数据 空间 ， 尽 管 语言 中 没有 定 
义 存 储 器 如 何 分 配 以 及 地 址 绑 定 如 何 处理 。 从 程序 员 的 角度 来 看 ， 使 用 这 种 手段 是 为 了 动态 请 求 空间 来 存 
储 数据 结构 (来 实现 对 象 、 列 表 、 树 、 字 符 串 等 )。 通 常 这 种 手段 是 你 第 一 次 使 用 的 动态 存储 分 配 的 操作 ， 
你 自然 期 望 它 是 存储 管理 器 的 一 个 通用 接口 。 然 而 ， 这 些 运行 时 存储 分 配 程序 根本 不 会 引起 分 配 主 存 给 进 
程 ， 而 是 允许 程序 员 手 工 绑 定 进程 地 址 空间 中 未 使 用 的 部 分 到 动态 数据 结构 。C 运行 时 模型 就 是 系统 如 何 
处 理 这 种 类 型 的 动态 存储 的 代表 。 

C 运 行 时 系统 中 提供 了 一 个 库 例 程 malloc ()， 用 于 动态 为 数据 结构 请 求 存储 空间 。 程 序 员 可 以 通过 
如 下 的 代码 段 来 请 求 空间 : 


struct ListNode * node; 


node= (struct ListNode*) malloc (sizeof (struct ListNode)); 


当 malloc () 调用 返回 时 ，node 所 指向 的 存储 块 足以 保存 数据 结构 struct ListNode 的 一 个 实例 。 

在 大 多 数 的 库 实现 中 ，malloc () 并 不 执行 系统 调用 ， 而 是 由 链接 编辑 器 预订 这 种 形式 的 动态 存储 分 
配 的 使 用 ， 并 保留 空间 来 满足 这 种 请 求 〈( 见 图 11-11)。malloc() 函数 从 称 为 堆 的 进程 存储 块 中 分 配 空 
间 。 栈 和 堆 的 大 小 都 在 链接 时 进行 确定 ， 所 以 转换 系统 就 为 它们 一 起 保留 了 一 个 存储 块 ， 然 后 随 着 进程 的 
执行 相互 向 对 方 “生长 ”。 如 果 栈 中 包含 了 很 多 临时 的 变量 和 调用 栈 帧 ， 栈 将 使 用 空间 的 大 部 分 ; 类似 地 ， 
如 果 程 序 使 用 malloc () 分 配 大 量 的 空间 ， 栈 的 大 小 将 受到 限制 。 

当 这 种 预 分 配 的 堆 空间 用 完 时 会 发 生 什么 现象 呢 ? malloc () 被 调用 时 ， 或 当 一 个 帧 被 加 入 栈 时 ， 运 
行 时 代码 会 检测 到 栈 / 堆 被 完全 分 配 了 ， 因 而 它 会 调用 操作 系统 存储 管理 器 (使 用 UNIX 系统 调用 sbrk (), 
见 [McKusick et al., 1996]) 请 求 分 配 更 多 的 空间 给 进程 。 当 新 空间 分 配给 进程 时 ， 地 址 空间 必须 重新 绑 
定 到 刚 分 配给 进程 的 主 存 空 间 ， 从 而 使 程序 中 的 存储 访问 指令 仍然 能 够 访问 程序 的 各 个 部 分 ， 如 栈 、 堆 空 
间 以 及 数据 区 。 


11.2.3 现代 存储 绑 定 


在 20 世纪 80 年 代 ， 大 多 数 操作 系统 开始 采用 使 用 了 高 级 绑 定 机 制 的 存储 管理 器 。 结 果 是 地 址 空间 变 ， 
得 更 复杂 一 些 。 在 过 去 ， 地 址 空间 的 思想 隐 含 在 绝对 程序 的 产生 中 。 现 在 ， 地 址 空间 是 显 式 的 并 作为 进程 
抽象 的 一 个 标准 部 分 来 定义 。 每 个 进程 建立 一 个 大 的 空 的 地 址 空间 : 32 位 微 处 理 器 上 的 4GB 地 址 空间 。 
这 意味 着 任何 进程 可 以 运行 访问 40 亿 个 不 同 地 址 的 程序 。 程 序 并 不 需要 用 完 所 有 的 地 址 空间 ， 但 是 存储 
管理 器 准备 支持 这 样 的 大 地 址 空间 。 

在 Linux 和 Windows 操作 系统 中 ,地址 空间 被 分 成 段 ， 这 些 段 被 用 户 空间 程序 使 用 ， 还 有 另 一 个 段 是 
供 进程 在 核心 模式 下 执行 使 用 的 。 当 进程 在 用 户 模式 下 执行 时 ， 它 可 以 使 用 3GB 地 址 空间 ， 当 进程 在 核 
心 模式 下 执行 时 ， 它 可 以 使 用 1GB 的 地 址 空间 。 通 过 为 每 个 进程 分 配 一 个 固定 大 小 的 地 址 空间 ， 静 态 地 
址 绑 定 策略 按 如 下 过 程 进行 ; 每 个 绝对 程序 定义 了 进程 需要 执行 程序 的 地 址 集 ， 每 个 进程 定义 具有 固定 大 小 
(4GB) 的 地 址 空间 。 当 进程 确定 要 执行 程序 时 ， 绝 对 程序 被 映射 到 进程 的 地 址 空间 中 ( 见 图 11-12), 


F ht FB 


低 端 地 址 





图 11-11 C 风 格 的 存储 布局 
YE: C 运行 时 系统 为 地 址 空间 使 用 了 一 个 特殊 的 存 
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储 布局 ， 一 个 非常 大 的 地 址 块 被 保留 作为 堆 图 11-12 程序 和 进程 地 址 空间 
和 栈 。 当 进程 启动 时 ， 栈 是 空 的 ， 并 且 也 没 注 : 固定 大 小 进程 地 址 空间 处 于 程序 转换 系统 产 
有 从 堆 中 分 配 地 址 块 。 当 发 生 分 配 时 ， 堆 和 生 的 地 址 空间 和 物理 存储 器 之 间 。 这 样 使 得 
栈 相互 向 对 方 增长 。 地 址 空间 在 运行 时 可 以 绑 定 到 主 存 中 。 


外 部 层次 的 映射 由 存储 管理 器 内 部 来 进行 处 理 ， 这 样 做 是 为 了 简化 现代 存储 管理 器 的 设计 并 提供 动态 


She (WL 11.4 节 ) 和 存储 映射 文件 (将 在 12.7 节 中 进行 讨论 所 需 的 一 些 额 外 功能 。 注 意图 11-5 中 程序 _ 


员 对 抽象 主 存 的 视图 并 没有 改变 。 现 在 加 载 器 将 绝对 程序 绑 定 到 进程 地 址 空间 而 不 是 物理 主 存 位 置 。 程 序 
转换 工具 并 不 关心 任何 主 存 细节 。 当 进程 运行 时 ， 存 储 管理 地 址 绑 定 工具 仅 关心 将 固定 大 小 〈 但 是 相当 


大 ) 的 进程 地 址 空间 映射 到 主 存 中 去 。 


丛 图 11-12 可 以 注意 到 ， 大 部 分 进程 地 址 空间 实际 上 并 没有 映射 到 主 存 上 ， 因 为 当 程序 与 进程 地 址 空 
间 相关 联 时 ， 这 些 进程 地 址 空间 并 没有 被 使 用 。 这 样 就 可 以 直到 运行 时 才 对 进程 地 址 空间 实行 绑 定 。 这 是 后 
面 的 动态 地 址 绑 定 的 预备 知识 。 在 学 习 动态 地 址 绑 定之 前 ， 我 们 先 考虑 一 下 物理 主 存 如 何 被 分 配给 进程 。 


11.3 主 存 分 配 


在 一 个 地 址 空间 绑 定 到 主 存 之 前 ， 存 储 管理 器 需要 为 进程 分 配 空间 。 多 道 程序 设计 存储 管理 器 使 用 空 


分 复 用 共享 的 方式 来 分 配 物理 存储 空间 。 当 一 个 进程 开始 运行 时 ， 
hie (See al tid 将 程序 安排 在 地 址 空间 中 准备 执 

， 然 后 将 它 加 载 进 主 存 中 。 

考虑 早期 的 批 处 理 存储 管理 器 : 假设 操作 系统 支持 4 道 程序 设 
计 ， 存 储 管理 器 将 主 存 划分 成 4 块 ， 然 后 将 每 一 块 分 配给 进程 。 图 
11-13 说 明了 一 个 主 存 图 ， 其 中 4 个 进程 已 经 被 分 配 了 主 存 的 不 同 
部 分 。 由 于 操作 系统 必须 有 存放 它 自己 的 代码 和 表 的 存储 空间 ， 所 
以 图 中 有 5 个 不 同 的 主 存 块 。 操 作 系统 使 用 从 0 到 A 的 主 存单 元 ; 
在 A 与 B 之 间 的 主 存单 元 没有 被 分 配 ; 进程 1 分 配 了 从 B 到 C 的 主 
存单 元 ; 进程 3 分配 了 从 C 到 D 的 主 存单 元 ; D 与 下 之 间 的 主 存单 
元 没有 被 分 配 ; 依 此 类 推 。 

有 很 多 不 同 的 策略 可 用 于 分 配 主 存储 空间 。 这 些 策略 通常 可 划 
分 成 两 大 类 : 一 类 是 在 操作 系统 配置 时 ， 将 主 存 分 割 成 固定 数目 、 


固定 大 小 的 主 存 块 ; 另 一 类 是 使 用 动态 确定 的 、 大 小 可 变 的 主 存 


块 。 在 存储 分 配 中 要 克服 的 基本 问题 是 存储 碎片 问题 ， 即 存在 小 存 
储 片 。 理 想 情况 下 ， 如 果 任 一 进程 需要 主 存 ， 存 储 管理 器 可 以 把 主 





图 11-13 多 道 程序 设计 存储 支持 

注 : 这 是 机 器 的 主 存 分 配 图 。 操 作 系 
统 占有 一 存储 块 ， 同 样 进程 0 一 3 
也 各 自 占有 存储 块 。 也 有 没有 使 
用 的 存储 块 (如 从 D 到 下 的 存储 
块 )， 称 为 存储 碎片 。 
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存 的 每 个 字 节 都 分 配给 进程 ， 在 实际 条 件 下 ， 在 任意 时 刻 部 分 主 存 一 主 存 碎片 不 能 使 用 ， 因 为 存储 管理 
器 不 能 使 用 有 效 的 方式 来 分 配 这 些 所 谓 的 碎片 部 分 。 在 下 面 有 关 两 个 基本 策略 的 讨论 中 ， 我 们 将 会 看 到 存 
储 碎片 是 如 何 产生 的 。 


11.3.1 固定 分 区 存储 分 配 策略 


假设 主 存 被 静态 地 划分 成 N 个 固定 大 小 的 区 域 或 分 区 ， 其 中 区 域 R AN, 个 存储 单元 。 典 型 情况 下 
六 天 入 (区域 大 小 不 同 ) ， 因 此 小 地 址 空间 的 进程 使 用 小 的 分 区 ， 大 地 址 空间 的 进程 使 用 大 的 分 区 。 固 定 
分 区 系统 中 的 存储 分 配 ， 要 求 进程 的 地 址 空间 小 于 或 等 于 已 分 配 分 区 的 大 小 。 例 如 ， 如 果 一 个 进程 的 地 址 
空间 大 小 为 上 ， 那 么 它 能 够 被 加 载 到 任 一 个 可 用 的 区 域 R 中 ， 其 中 N; 宇 &。 超 过 进程 地 址 空间 所 用 的 主 
存单 元 数 N; -k 在 进程 加 载 后 的 时 间 里 一 直 没 有 使 用 ， 因 为 这 些 存储 单元 虽 已 分 配给 进程 ， 但 没有 被 映 
射 到 进程 的 地 址 空间 。 这 种 现象 称 之 为 内 部 碎片 (internal fragmentation) ， 这 种 形式 的 碎片 使 部 分 主 存 未 
被 使 用 ， 是 由 于 当 进 程 只 需要 个 单元 时 ， 却 分 配 了 Ni; 个 存储 单元 。 

如 果 图 11-13 中 所 示 的 主 存 图 是 基于 固定 分 区 策略 ; 

E Ro FIREM 0 3) BA 

BR, 从 B 到 C 单 元 

BR,AC4 ES 

B Rs 从 玉 到 G 单 元 

E R, 从 G 到 主 存 的 最 高 地 址 

因而 Ro 中 的 A 到 B 单 元 是 内 部 碎片 ，R; 中 的 号 到 玉 单 元 是 内 部 碎片 等 。 在 示例 中 ，R1 中 没有 内 部 
碎片 ， 所 分 配 的 单元 都 被 使 用 。 , 

那么 对 于 采用 固定 分 区 的 存储 器 应 该 采取 什么 策略 进行 存储 分 配 昵 ? 假设 每 个 存储 区 域 都 有 一 个 竞争 
分 区 的 进程 队列 ， 当 一 个 进程 请 求 上 个 存储 单元 时 ， 分 配 程序 就 将 进程 放 到 某 个 区 域 R; 的 队列 中 ， 其 中 
六 >>A。 正 常情 况 下 ， 分 配 程序 将 会 选择 最 适合 k 的 Ri ， 这 意味 着 它 会 选择 一 个 使 N; -k BWR, A 
时 如 果 某 些 区 域 的 队列 已 满 ， 分 配 程序 可 能 就 不 采用 最 适合 策略 ， 而 是 可 能 选择 任 一 个 足够 容纳 进程 的 区 
域 ; 虽然 这 样 做 缓解 了 对 最 适合 区 域 的 竞争 ， 但 比 最 适合 方法 容易 产生 更 多 的 内 部 碎片 。 另 一 可 选 的 方法 
是 ， 分 配 程序 保持 一 个 包含 所 有 进程 的 队列 ， 然 后 根据 使 用 进行 分 配 。 

一 且 一 个 进程 被 分 配 了 一 个 区 域 并 开始 运行 程序 ， 加 载 程序 将 绝对 程序 地 址 空间 绑 定 到 存储 区 域 来 产 
生 可 执行 程序 ， 其 地 址 由 主 存 的 分 区 物理 位 置 来 确定 。 

采用 固定 分 区 的 存储 管理 器 ， 在 批 处 理 多 道 程序 设计 系统 中 被 广泛 使 用 ， 但 它们 通常 不 适用 于 事先 不 
知道 上 的 系统 〈 例 如 ， 分 时 系统 和 其 他 的 交互 式 系统 )。 因 为 交互 用 户 的 主 存 需求 变化 很 大 ， 取 决 于 在 任 
一 特定 用 户 的 交互 终端 上 的 活动 。 例 如 ， 用 户 可 以 登录 到 机 器 后 ， 有 一 两 个 小 时 没有 使 用 终端 因而 ， 直 
到 用 户 返 回 终端 并 开始 与 系统 交互 之 前 ， 进 程 几乎 不 需要 什么 主 存 ; 而 在 另 一 段 时 间 内 ， 用 户 可 能 在 编译 
程序 或 格式 化 文本 文档 (如 用 emacs 程序 )， 那 么 这 些 程序 要 比 文本 编辑 器 或 邮件 系统 请 求 相对 多 的 主 存 。 
本 质 上 ， 分 时 系统 强制 操作 系统 放弃 使 用 固定 分 区 策略 ， 而 选择 动态 算法 来 更 好 地 利用 主 存 。 


11.3.2 可 变 分 区 存储 分 配 策略 


如 果 分 时 系统 中 使 用 固定 分 区 策略 ， 会 使 内 部 碎片 浪费 情况 更 为 严重 ， 因 为 在 登录 会 话 期 间 ， 进 程 的 
主 存 需要 变化 很 大 。 处 理 这 种 浪费 问题 的 方法 是 重新 设计 存储 管理 器 ， 使 它 可 以 根据 在 任 一 时 刻 进 程 对 主 
存 空间 的 需要 而 分 配 区 域 ， 这 种 方法 可 以 有 效 地 消除 内 部 碎片 现象 。( 注 意 ， 存 储 管理 器 将 分 配 地 址 界限 
限制 为 字 倍数 的 区 域 ， 如 64 字 节 的 块 。 如 果 一 个 进程 请 求 的 主 存 数 目 不 是 最 小 分 配 单位 的 倍数 ， 少 量 的 
内 部 碎片 也 会 产生 。 当 然 ， 与 固定 分 区 产生 的 碎片 相 比 这 是 微不足道 的 。) 

基本 策略 

对 可 变 尺寸 块 存储 管理 器 来 说 ， 新 的 挑战 是 如 何 记录 可 变 大 小 主 存 块 的 踪迹 ， 并 有 效 地 分 配 它们 。 当 系 
统 初始 化 时 ， 主 存 块 被 配置 作为 一 个 有 No 存储 单元 的 大 块 ( 见 图 11-14a))。 只 要 下 面 的 条 件 成 立 ， 调 度 程 
序 就 分 配 n; 个 单元 给 进程 p，( 参 见 图 11-14b) ): 
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>) ni S No 

在 存储 空间 底部 的 一 小 部 分 存储 单元 ， 将 会 成 为 外 部 碎片 一 一 该 部 分 存储 单元 既 不 分 配给 操作 系统 ， 
也 不 会 给 任何 进程 使 用 。 当 不 再 有 空闲 主 存 能 分 配给 进程 时 ， 存 储 管理 器 就 等 待 进程 释放 主 存 。 

在 图 11-14c) 中 , ps 已 经 释放 了 它 的 存储 单元 ， 并 且 pı 已 经 被 分 配 了 nns 个 存储 单元 。 存 储 管理 
器 选择 了 一 个 适合 进程 ， 放 人 由 于 ps 释放 主 存 而 空 出 的 存储 单元 。 因 为 存储 空间 需要 的 变化 (HF n< 
ns)， 因 而 可 能 在 已 分 配给 py 和 ps 的 存储 单元 之 间 ， 生 成 一 小 块 未 使 用 的 存储 区 。 这 个 未 被 使 用 的 块 是 
外 部 碎片 的 另 一 个 实例 。 

当 po 释放 了 它 的 存储 单元 时 ， 邻 近 未 分 配 空间 便 又 有 了 ns 个 存储 单元 空闲 。 存 储 管理 器 必须 记录 空 
闲 区 的 踪迹 ， 因 而 当 有 两 个 连续 的 空闲 区 出 现时 ， 能 够 合并 成 一 个 更 大 的 未 被 使 用 的 主 存 块 。 在 图 11- 
14c) A; 

E ps 已 经 被 分 配 了 以 前 分 配给 pi 的 块 

E 加 10 被 分 配 了 以 前 分 配给 ps 的 块 

E po 被 分 配 了 以 前 分 配给 ps 的 块 

m p7 被 分 配 了 以 前 分 配给 ps 的 块 

这 种 新 的 分 配 生 成 了 几 个 类 似 于 最 初 在 图 11-14b) 中 存储 器 底部 出 现 的 外 部 碎片 。 

随 着 系统 的 继续 运行 ， 出 现 外 部 碎片 的 可 能 性 就 越 大 。 出 现 这 种 情形 是 由 于 进程 只 适合 放 人 与 它 请 求 
空间 一 样 大 或 更 大 的 空闲 区 中 ， 额 外 的 存储 单元 就 成 了 外 部 碎片 。 而 且 ， 随 着 存储 碎片 的 增长 ， 存 储 管理 
器 将 往往 会 只 能 满足 那些 有 更 小 主 存 请 求 的 进程 ， 因 而 又 会 引起 碎片 ， 逐 渐 存储 区 会 变 得 越 来 越 小 。 最 后 
系统 会 达到 一 种 状态 ， 即 使 累计 的 主 存量 能 满足 更 大 的 进程 请 求 时 ， 也 不 能 将 这 些 主 存 分 配 出 去 。 这 时 ， 操 
作 系 统 将 不 得 不 通过 移动 所 有 加 载 的 进程 来 紧 致 主 存 ， 从 而 生成 一 个 大 的 连续 的 空闲 块 (参见 图 11-14d) ) 。 


国 未 用 A ea 








E 11-14 可 变 分 区 存储 系统 中 的 动态 存储 分 配 
注 : 这 幅 图 解释 了 在 使 用 可 变 大 小 块 策略 的 情况 下 ， 主 存 的 几 个 不 同 的 配置 。 在 a) 图 中 ， 只 有 操作 系统 使 用 
Ef. Eb) 图 中 ，7 个 相 邻 的 进程 被 加 载 到 主 存 中 。 在 c) AP, HR phn pa ps 和 ps 释放 了 它们 的 主 
FZE, br pes po pio 被 分 配 了 存储 块 。 这 样 ， 出 现 了 外 部 碎片 ， 例 如 在 ps 和 pio 间 的 主 存 空间 。 在 
d) 图 中 ， 通 过 移动 存储 块 来 消除 了 小 的 存储 碎片 ， 从 而 产生 了 一 大 块 未 分 配 主 存 。 
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四 一 一 
示例 : 移动 程序 的 开销 

紧 致 (如 图 11-14d) 所 示 ) 要 求 将 程序 从 一 个 主 存 

块 移 动 到 另 一 个 主 存 块 ， 反 过 来 又 会 请 求 程序 进行 重 定 
位 ， 因 为 绑 定 的 地 址 是 由 加 载 器 在 程序 加 载 到 第 一 个 存 
储 位 置 时 所 形成 的 ， 所 以 当 程 序 加 载 到 另 一 个 不 同 的 位 
置 后 就 变 成 无 效 了 。 不 幸 的 是 ， 加 载 器 只 能 重 定位 绝对 
映像 ， 而 不 能 重 定位 执行 映像 。 发 生 这 种 现象 是 由 于 绝 
对 映像 的 形成 过 程 不 同 ( 例 如， 如 图 11-9 中 所 示 一 样 )， 
加 载 器 可 以 容易 地 通过 编译 器 和 链接 器 留 下 的 标志 来 标 
识 地 址 ， 而 这 些 标志 在 加 载 器 形成 可 执行 映像 时 被 去 掉 
了 ， 因 为 可 执行 映像 要 通过 控制 部 件 进行 转换 ， 如 进行 
译 码 并 执行 。 所 以 ， 当 程序 移动 时 ， 加 载 器 必须 再 一 次 
开始 使 用 链接 器 所 生成 的 绝对 映像 ， 而 不 是 使 用 主 存 中 
的 可 执行 映像 ( 见 图 11-15)。 在 地 址 空间 被 移动 之 前 对 
进程 数据 的 任何 改变 ， 除 非 已 经 保存 在 辅 存 中 了 ， 否 则 





图 11-15 移动 可 执行 映像 
注 : 当 包含 程序 的 存储 块 被 移动 时 ， 出 现在 程 


都 会 丢失 序 机 器 指令 中 的 所 有 物理 地 址 都 必须 调 
= % 整 ， 因 为 程序 最 初 被 加 载 时 所 引用 的 数据 
另外 有 一 个 对 该 问题 的 更 好 解决 方案 : 改变 系统 与 和 人 口 点 地 址 ， 在 包含 程序 的 存储 块 被 移 
主 存 位 置 进行 地 址 绑 定 的 方式 。 这 种 动态 绑 定 方法 将 在 动 后 都 将 改变 。 
11.4 节 中 介绍 。 
See REE | 
动态 分 配 


在 可 变 分 区 存储 中 ， 另 一 种 情形 也 必须 要 考虑 。 系 统 允 许 进程 在 执行 时 ， 根 据 进 程 的 不 同 计算 阶段 ， 
可 以 改变 已 分 配给 它 的 主 存量 。 这 意味 着 ， 有 时 进程 将 请 求 比 当前 适合 它 的 邻近 的 空闲 区 空间 还 要 大 的 主 
存 。 例 如 ， 在 图 11-14c) 中 ,假设 po 请 求 另 外 的 主 存 ， 空 间 量 上 超过 了 当前 它 的 空间 加 上 邻近 的 空闲 区 
空间 ， 那 么 如 何 处 理 这 种 请 求 呢 ? 存储 管理 器 会 阻塞 zw ， 直 到 更 多 的 邻近 空间 变 得 可 用 。 但 是 这 种 策略 
交互 用 户 不 喜欢 ， 因 为 这 可 能 招致 长 时 间 的 等 待 。 作 为 可 选 
的 方法 ， 调 度 程序 在 主 存 中 找 出 一 个 更 大 的 空闲 区 ， 并 移动 
进程 到 新 的 空闲 区 运行 ， 从 而 释放 原来 的 空间 。 然 而 〈 如 图 
11-14d) 所 示 紧 致 的 情形 中 )， 当 系统 移动 进程 到 新 的 空间 
时 ， 需 要 利用 某 种 方式 来 调整 程序 的 地 址 。 

在 一 个 支持 动态 存储 分 配 的 环境 中 ， 存 储 管理 器 必须 保 
持 记 录 主 存 中 每 个 可 分 配 块 的 信息 ， 这 种 记录 可 以 通过 几乎 
任 一 种 能 够 实现 列表 的 数据 结构 来 实现 。 一 种 显而易见 的 实 
现 方法 是 定义 一 个 由 块 描述 符 组 成 的 空闲 列表 (free list), H 
中 每 个 描述 符 包含 指 向 下 一 个 描述 符 的 指针 、 指 向 主 存 块 的 
指针 以 及 每 个 块 的 长 度 (参见 图 11-16)。 在 存储 管理 器 中 保 
存 有 空闲 列表 的 指针 ， 并 按照 有 助 于 分 配 策略 的 次 序 插入 表 





项 到 列表 中 ， 图 中 只 是 简单 地 按照 主 存 地 址 递增 的 次 序 排列 。 aie FASMETE 
主 存 通常 按 多 字 块 进行 分 配 ， 每 块 中 有 64 或 更 多 的 字数 。 空 “ ” 注 : 一 组 空闲 存储 块 可 以 保持 在 链表 
闲 区 的 块 未 被 使 用 ， 即 它 的 内 容 没有 被 任何 进程 使 用 。 在 典 村 ， 由 存储 管理 器 维持 链表 。 当 


PORE 释放 存储 块 时 ， 将 存储 块 增加 到 
型 的 存储 分 配 策略 中 ， 使 用 每 个 空闲 块 中 的 开始 几 个 字 来 实 链表 中 ; 当 分 配 存储 块 时 ， 将 块 


现 如 图 11-16 所 示 的 链表 ， 调 度 程序 中 的 空闲 列表 指针 指向 
从 链表 中 摘除 ， 并 将 相 邻 的 空闲 
第 一 个 空闲 块 的 第 一 个 单元 。 块 进行 组 合 。 à 
有 几 种 不 同 的 策略 可 以 用 于 将 空间 分 配给 竞争 主 存 的 进 
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程 ， 下 面 对 最 为 流行 的 几 种 策略 进行 简要 说 明 。 

RAS (best fit): 存储 管理 器 将 进程 放置 到 适合 的 、 最 小 的 未 分 配 主 存 块 中 。 例 如 ， 假 设 一 个 
进程 请 求 12KB 的 主 存 ， 并 且 存 储 管理 器 的 未 分 配 块 列表 中 有 6KB、14KB、19KB、11KB 以 及 
13KB 大 小 的 块 ， 那 么 最 佳 适 合 策略 将 分 配 13KB 的 块 给 进程 。 

M 最 大 适合 (worst fit) :存储 管理 器 将 进程 放置 到 最 大 的 、 可 用 的 未 分 配 主 存 块 中 。 此 策略 的 思想 
是 ， 这 种 分 配 后 会 生成 最 大 的 空闲 区 ， 因 而 与 最 佳 适合 策略 相 比 ， 增 加 了 另 一 进程 能 够 使 用 作为 
外 部 碎片 的 空闲 区 的 可 能 性 。 如 果 未 分 配 块 列表 中 有 6KB、14KB、19KB、11KB 以 及 13KB 大 小 
的 块 ， 并 且 一 个 进程 请 求 12KB 的 主 存 ， 那 么 最 大 适合 策略 将 从 19KB 的 块 中 分 出 12KB 给 进程 ， 
留 下 一 个 7KB 的 块 以 后 使 用 。 

加 RAS (first fit) ， 如 果 存 储 器 中 有 很 多 空闲 区 可 用 ， 为 了 减少 分 析 空 闲 列表 的 时 间 ， 调 度 程序 
会 从 列表 的 开始 查找 ， 并 把 遇 到 的 第 一 个 满足 请 求 的 空闲 块 分 配给 进程 。 如 果 未 分 配 块 列 表 中 有 
6KB、14KB、19KB、11KB 以 及 13KB 大 小 的 块 ， 并 且 一 个 进程 请 求 12KB 的 主 存 ， 那 么 最 先 适 合 
策略 将 把 14KB 的 块 分 配给 进程 。 

图 下 一 个 适合 (next fit): 最 先 适合 方法 往往 在 列表 的 前 部 将 适合 的 主 存 块 分 段 使 用 ， 而 没有 考虑 列 
表 后 面 的 块 。 下 一 个 适合 方法 是 最 先 适合 策略 的 一 个 变种 ， 它 将 列表 变 成 了 一 个 循环 列表 ， 使 表 
中 最 后 一 个 块 指向 第 一 个 块 。 当 一 个 进程 请 求 存储 块 时 ， 它 从 空闲 指针 所 指向 的 位 置 开 始 查找 ， 
一 旦 发 现 了 一 个 块 可 分 配 ， 就 分 配 该 空间 ， 然 后 调整 空闲 指针 指向 新 的 碎片 ， 如 果 没 有 碎片 ， 就 
指向 已 分 配 块 后 面 的 块 。 参 照 前 面 的 例子 ， 如 果 未 分 配 块 列表 中 有 6KB、14KB、19KB、11KB 以 
及 13KB 大 小 的 块 ， 并 且 存 储 管理 器 上 次 分 配 的 块 在 列表 中 19KB 块 与 11KB 块 之 间 ， 那 么 当 一 个 
进程 请 求 12KB 的 主 存 时 ， 下 一 个 适合 策略 将 把 13KB 的 块 分 配给 进程 。 

在 Knuth [1973, vol. 1] 中 有 对 这 些 策略 〈 以 及 其 他 策略 ) 的 经 典 阐述 。 


11.3.3 现代 存储 分 配 策略 


现代 存储 管理 器 都 使 用 某 种 可 变 分 区 形式 的 方法 。 然 而 ， 存 储 器 通常 按 固定 大 小 块 来 进行 分 配 〈 称 为 
“页 ”"， 如 11.5 节 中 在 介绍 虚拟 存储 器 时 所 述 ) ， 因 而 可 以 大 大 简化 空闲 列表 的 管理 。 在 这 种 情形 中 ， 所 有 
分 配 单位 都 是 相同 大 小 的 ， 因 而 空闲 列表 管理 很 简单 。 在 过 去 的 系统 中 ， 如 DOS 和 版 本 7 的 UNIX , 存 
储 管理 器 处 理 可 变 大 小 的 主 存 块 。 当 一 个 进程 被 创建 时 ， 存 储 管理 器 使 用 如 最 佳 适合 之 类 的 策略 来 分 配 初 
始 需 求 的 主 存 数目 ; 随 着 进程 的 执行 ， 根 据 在 任 一 特定 执行 阶段 的 需要 ， 它 执行 相应 的 主 存 请 求 和 释放 
操作 。 . 

地 址 空间 分 区 尺寸 会 发 生 改 变 的 通常 是 数据 分 区 。 一 旦 地 址 空间 程序 分 区 的 程序 被 加 载 到 主 存 中 ， 它 
通常 不 改变 大 小 〈 大 小 的 改变 将 意味 着 程序 已 经 改变 )。 然 而 ， 假 设 地 址 空间 程序 分 区 所 包含 的 程序 增长 
了 (或 变 小 )， 则 要 么 是 程序 正在 被 卸载 ， 要 么 是 程序 不 知 什么 原因 增长 了 。 在 C 语言 中 ， 这 通常 是 不 可 
能 的 ， 但 是 可 能 发 生 在 像 Lisp 的 语言 中 。 我 们 已 经 知道 ， 对 系统 来 说 ， 随 着 程序 的 执行 ， 提 供 一 些 比 传统 
的 静态 绑 定 更 好 的 方法 来 改变 地 址 空间 绑 定 是 至 关 紧 要 的 ; 否则 ， 每 次 当 程序 增长 或 变 小 时 ， 加 载 程序 必 
须 重新 将 程序 中 的 每 个 地 址 与 新 的 主 存 位 置 绑 定 。( 这 同样 发 生 在 程序 移动 时 一 一 例如 ， 在 主 存 中 进行 紧 
致 或 卸载 地 址 空间 ， 以 及 重 载 地 址 空间 到 主 存 中 。) 


11.4 动态 地 址 空间 绑 定 


在 静态 地 址 空间 绑 定 中 ， 源 程序 中 的 符号 (变量 和 人 口 点 ) 在 编译 时 首先 绑 定 到 可 重 定位 模块 中 的 相 
对 地 址 ， 然 后 在 链接 时 绑 定 到 绝对 模块 中 的 地 址 ， 最 后 在 加 载 时 绑 定 到 主 存 地址 。 在 运行 时 (runtime) 之 
前 ， 所 有 地 址 都 要 绑 定 到 主 存 位 置 。 如 11.3 节 所 述 ， 程 序 设计 语言 的 运行 时 系统 提供 了 一 种 用 于 运行 时 
地 址 绑 定 的 便利 工具 ， 利 用 动态 存储 分 配 手段 来 支持 动态 的 数据 结构 。 在 这 种 情况 下 ， 程 序 员 负责 将 地 址 
绑 定 到 主 存 位 置 〈 使 用 C 式样 的 指针 和 类 型 定义 )。 

如 果 在 运行 时 有 更 一 般 的 工具 可 用 于 绑 定 绝对 程序 地 址 ， 那 么 存储 管理 器 将 可 以 自由 地 在 主 存 中 移动 
程序 ， 而 无 需 请 求 程序 员 为 重 定 位 采取 某 些 特殊 的 活动 。 这 也 能 够 使 存储 管理 器 采用 一 般 的 方法 来 使 用 可 
变 分 区 策略 ， 使 用 这 些 策略 可 以 容易 地 改变 分 配给 进程 的 主 存 ， 而 无 需 担 心 使 用 主 存 的 进程 地 址 空间 的 重 
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定位 问题 ， 这 种 方法 就 称 为 动态 重 定位 (dynamic relocation) 。 

设想 一 种 算法 ， 加 载 器 用 它 调整 绝对 模块 中 的 地 址 ， 从 而 使 它们 与 物理 地 址 相 匹配 。 所 建立 的 绝对 模 
块 中 的 地 址 ， 是 假设 绝对 模块 要 被 加 载 到 存储 位 置 0， 这 称 为 相对 于 模块 的 起 始 位 置 的 地 址 。( 程 序 可 能 有 
其 他 一 些 不 是 编译 成 相对 地 址 的 “地 址 ”。 例 如 ， 当 模块 被 重 定位 时 ， 直 接 操作 数 不 应 该 被 作为 相对 地 址 
改变 。 一 些 指令 集中 包括 偏 移 地 址 ， 意 味 着 操作 数 是 当前 PC 内 容 的 一 个 偏 移 量 ， 这 个 偏 移 量 使 程序 能 够 
通过 在 操作 数 中 指定 的 前 后 偏 移 数 ， 进 行 分 支 转移 。 这 种 操作 数 在 机 器 中 一 般 作为 16 位 的 地 址 操作 数 。) 
当 加 载 器 确定 模块 中 第 一 个 单元 的 实际 地 址 时 ， 它 可 以 通过 将 第 一 个 单元 的 地 址 加 到 程序 中 所 有 的 相对 地 
址 中 ， 从 而 实现 相对 地 址 的 调整 。 在 图 11-10 中 ,将 图 11-9 所 示 的 绝对 模块 的 每 个 相对 地 址 都 加 上 4000, 
因为 模块 被 加 载 到 单元 地 址 为 4000 的 地 方 。 

可 以 设计 硬件 在 每 次 CPU 引用 主 存 地 址 时 ， 来 执行 简单 的 重 定位 。 如 果 使 用 硬件 实现 ， 可 以 允许 到 
运行 时 才 进 行 重 定位 。 假 设 加 载 器 对 链接 器 留 下 的 地 址 不 作 任何 动作 。CPU 就 像 是 模块 被 加 载 到 存储 位 置 
0 那样 执行 程序 ， 每 个 相对 于 模块 开始 位 置 的 地 址 流出 到 主 存 部 件 (如 同 就 是 主 存 地 址 一 样 )， 硬 件 将 在 
中 间 截 取 每 个 这 样 的 地 址 ， 并 且 在 它 发 送 到 主 存 之 前 加 上 一 个 重 定位 值 (参见 图 11-17)。 重 定位 寄存 器 
(relocation register) 是 进程 运行 现场 的 一 部 分 ， 因 此 在 每 次 不 同 的 进程 分 配 到 CPU 后 ， 它 的 值 要 改变 。 这 
使 得 可 执行 映像 在 加 载 时 生成 ， 但 在 运行 时 被 使 用 ， 避 免 了 模块 在 主 存 移动 时 对 地 址 进行 重 定位 的 工作 。 
这 种 硬件 动态 重 定位 (hardware dynamic relocation) 技术 在 当代 处 理 机 中 普遍 采用 ， 它 独立 于 任何 其 他 的 
存储 管理 策略 。 操 作 系统 有 极 大 的 自由 ， 只 要 存储 管理 器 需要 移动 程序 ， 就 可 以 考虑 在 程序 执行 的 过 程 
中 ， 将 可 执行 映像 加 载 到 主 存 中 的 任意 位 置 。 
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相对 地 址 ， 


0x02010 


重 定位 寄存 器 ©) 


改 0x02010 







a 程序 加 载 到 0x10000 开 始 位 置 > 重 定 位 寄存 器 = 
a 程序 加 载 到 0x04000 开 始 位 置 > 重 定 位 寄存 器 = 0x04000 


图 11-17 硬件 动态 地 址 重 定位 
注 : 重 定位 寄存 器 包含 了 分 配给 进程 的 主 存 的 第 一 个 位 置 的 地 址 。 通 过 将 程序 中 出 现 的 地 址 与 基地 址 相 
加 来 进行 重 定位 。 这 允许 在 静态 地 址 重 定位 中 ， 由 加 载 器 进行 的 最 后 地 址 定位 在 运行 时 进行 。 


当代 语言 转换 系统 利用 了 硬件 动态 重 定位 技术 ,如 11.2 节 所 述 ， 转 换 系 统 在 绝对 程序 中 产生 代码 自 
和 数据 段 。 例 如 ，C 程序 就 会 被 编译 成 一 个 正文 (代码 ) 段 ， 其 中 包含 有 代码 段 ， 还 有 包含 临时 变量 的 堆 
栈 段 以 及 包含 静态 变量 的 数据 段 。UNIX 进程 模型 (如 第 2 章 中 所 述 ) 就 是 在 这 种 程序 模块 化 基础 上 形成 
的 。 为 了 显 式 地 支持 这 种 语言 模型 ，CPU 设计 中 至 少 要 有 三 个 重 定位 寄存 器 ， 将 代码 、 栈 、 数 据 段 分 别 作 
为 单独 的 重 定位 模块 来 进行 管理 。 例 如 ，Intel 80x86 微 处 理 器 中 包含 一 个 代码 段 重 定位 寄存 器 、 一 个 堆栈 
自重 定位 寄存 器 ， 以 及 一 个 数据 段 重 定位 寄存 器 〈 见 图 11-18)。 代 码 段 寄存 器 在 处 理 器 的 取 指令 周期 重 定 
位 所 有 的 地 址 ， 堆 栈 段 寄存 器 为 栈 指令 的 执行 重 定位 地 址 ， 数 据 段 寄 存 器 在 执行 周期 重 定位 所 有 其 他 的 地 
址 。 在 有 六 个 重 定位 寄存 器 的 机 器 体系 结构 中 ， 每 个 进程 有 分 配给 它 的 N 个 不 同 的 主 存 块 。 代 码 、 数 据 
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和 栈 段 在 主 存 中 不 一 定 是 连续 的 。 

段 寄 存 器 的 管理 能 够 通过 操作 系统 来 “自动 ”进行 吗 〈 使 程序 员 实际 上 并 不 需要 知道 段 寡 存 器 的 存 
在 )? 假设 编译 器 在 转换 源 模 块 时 产生 正常 的 16 位 地 址 ， 并 留 下 外 部 的 访问 地 址 让 链接 编辑 器 去 处 理 。 进 
一 步 假定 单个 模块 的 代码 或 数据 段 长 度 没 有 超过 64KB， 尽 管 最 后 的 绝对 程序 可 能 比 64KB 大 得 多 。 因 此 
所 有 产生 的 可 重 定位 模块 代码 的 代码 或 数据 段 中 ， 都 是 16 位 的 相对 地 址 。 当 执行 模块 中 的 任 一 个 函数 时 ， 
人 口 点 的 初始 化 代码 加 载 代 码 和 数据 段 寄 存 器 ， 使 它们 指向 相应 可 重 定位 模块 的 绝对 映像 分 区 。 初 始 化 代 
码 使 用 的 地 址 必须 由 链接 编辑 器 提供 。 现 在 ， 当 控制 流 从 一 个 模块 移动 到 另 一 个 时 ， 调 用 者 将 访问 一 个 外 
部 符号 ， 该 符号 将 在 后 面 由 链接 编辑 器 处 理 。 编 译 器 认可 这 个 事实 ,并 产生 代码 用 于 调整 代码 段 寄存 器 ， 
使 得 在 指令 执行 之 前 能 够 调用 外 部 定义 的 函数 (参见 图 11-19)。 至 此 ， 每 次 跨 模块 的 调用 都 会 引起 代码 段 
寄存 器 内 容 的 改变 。 由 于 访问 64KB 块 以 外 的 数据 ， 在 源 代 码 中 也 被 定义 成 外 部 访问 ， 编 译 器 能 够 认可 每 
个 这 样 的 访问 ， 并 产生 代码 用 于 改变 数据 段 寄 存 器 。 每 次 对 外 部 变量 的 访问 都 会 引起 数据 段 寄 存 器 内 容 的 
改变 。 
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主 存 一 > 调用 之 前 
EE 调用 之 后 
存储 地 址 寄存 器 
图 11-18 ”多段 重 定位 寄存 器 
注 : 许多 现代 的 CPU 包含 一 组 自重 定位 寄存 | 
器 ， 其 中 有 用 来 重 定位 代码 段 的 寄存 器 、 图 11-19 调整 代码 寄存 器 
重 定位 栈 段 的 寄存 器 、 重 定位 数据 段 的 寄 注 : 代码 寄存 器 表示 了 代码 段 的 基地 址 。 如 果 代 码 寄存 器 改 
存 器 。 这 人 允许 每 个 进程 有 两 个 以 上 不 同 的 变 了 ， 控 制 单元 会 从 一 个 新 的 存储 块 中 取 指令 。 这 使 得 
段 ， 并 能 在 运行 时 动态 重 定位 。 进程 可 以 从 一 个 段 跳 转 到 另 一 个 段 。 


这 种 技术 是 复杂 的 ， 依 赖 于 编译 器 和 链接 编辑 器 通过 段 寄 存 器 提供 可 操纵 的 足够 大 的 地 址 空间 。 这 种 
方法 不 能 用 于 随意 修改 段 寄存 器 值 的 汇编 语言 程序 ， 或 者 源 代码 模块 产生 的 代码 或 数据 段 超过 64KB 的 情 
形 中 。 

这 种 技术 也 依赖 于 机 器 语言 中 的 一 个 特殊 call 指令 。 如 果 编 译 器 生成 一 条 指令 ， 它 恰好 在 call 指令 
之 前 设置 代码 段 寄存 器 ， 那 么 会 发 生 什么 情况 呢 ? 取 的 下 一 条 指令 将 不 是 段 寄存 器 加 载 指 令 位置 后 面 的 那 
条 指令 ， 而 是 在 另 一 个 64KB 段 中 相应 位 置 的 一 条 指令 。 为 了 使 这 种 方法 能 够 起 作用 ， 必 须要 做 到 : 加 载 
段 寄存 器 ， 同 时 必须 在 段 寄 存 器 更 新 之 前 执行 call 指令 ， 而 不 只 是 在 一 条 指令 中 执行 call。 

甚至 在 仅 有 三 个 重 定位 寄存 器 的 情况 下 ， 进 程 也 可 以 灵活 地 使 用 多 个 段 。 只 有 可 信 软 件 才 可 以 改变 可 
重 定位 寄存 器 的 内 容 。 在 现代 计算 机 中 ， 这 样 的 指令 是 特权 指令 。 仅 有 操作 系统 (特别 是 存储 管理 器 ) 可 
以 改变 可 重 定位 寄存 器 的 内 容 。 当 段 寄存 器 需要 调整 时 ， 编 译 器 产生 自 陷 指令 。 在 运行 时 ， 自 陷 指令 会 中 
断 程序 执行 ， 交 给 系统 执行 。 这 里 的 自 陷 被 认为 是 一 个 段 自 陷 ， 并 被 传递 给 存储 管理 器 。 存 储 管理 器 确定 
目标 地 址 ， 然 后 调整 程序 计数 器 和 段 寄 存 器 来 访问 远 处 的 目标 地 址 。 这 种 技术 也 要 求 在 从 主 存 中 取 另 一 条 
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指令 之 前 ， 
运行 时 界限 检查 :隔离 机 制 


重 定 位 寄存 器 是 计算 机 系统 中 的 一 个 基 
本 部 件 ， 因 为 它 能 够 实现 动态 地 址 绑 定 。 一 旦 在 
硬件 中 结合 了 这 种 机 制 ， 就 会 以 小 的 代价 ， 从 本 
质 上 增加 系统 支持 存储 保护 的 能 力 。 假 设 每 个 可 
重 定位 寄存 器 都 有 一 个 伴随 的 界限 寄存 器 (limit 
register) ， 其 中 存放 重 定位 寄存 器 表示 的 存储 段 的 
长 度 。 只 要 CPU 发 送 一 个 地 址 到 主 存 中 ， 在 重 定 
位 寄存 器 内 容 加 到 该 地 址 上 的 同时 ,将 得 到 的 地 
址 和 与 界限 寄存 器 的 内 容 相 比较 (参见 图 11-20)。 
如 果 地 址 和 小 于 界限 寄存 器 的 值 ， 那 么 访问 的 地 
址 在 存储 段 内 ; 如 果 地 址 和 大 于 界限 寄存 器 的 值 ， 
那么 访问 的 主 存单 元 不 是 分 配给 当前 CPU 运行 的 
进程 的 。 越 界 访问 (out-of-bounds) 也 称 为 段 
越位 (segment violation) ， 将 引起 一 个 例外 ， 因 而 
产生 一 个 致命 的 执行 错误 。 


11.5 现代 存储 管理 器 策略 





通过 一 条 指令 能 够 设置 程序 计数 器 和 段 寄存 器 。 
CPU 









n 界限 检查 很 容易 加 入 
n 提供 了 出 色 的 存储 保护 


图 11-20 ”使 用 界限 寄存 器 检查 边界 

注 : 界限 寄存 器 包含 了 一 个 无 符号 的 整 型 值 段 长 
度 。 如 果 当 前 的 地 址 小 于 界限 寄存 器 的 值 ， 
它 引用 的 是 段 内 地 址 ， 但 是 如 果 它 比 界限 寄 
存 器 的 值 大 ， 则 地 址 引用 了 段 外 的 信息 。 


虚拟 存储 器 是 现代 操作 系统 中 主要 的 存储 管理 策略 ， 其 次 是 在 功能 要 求 较 低 的 操作 系统 中 和 带 有 适当 
映射 硬件 的 计算 机 上 所 采用 的 交换 技术 。 交 换 技 术 最 先 利用 动态 重 定位 硬件 ， 它 影响 了 虚拟 存储 器 的 发 
展 。 因 此 我 们 首先 来 研究 交换 作为 理解 虚拟 存储 器 的 基础 。 

多 分 区 存储 策略 是 多 道 程序 设计 的 基础 ， 通 过 将 主 存 划分 成 多 个 区 域 ， 并 将 这 些小 区 域 分 别 分 配给 一 
组 进程 使 用 ， 调 度 程序 就 可 以 在 这 些 进程 之 间 高 速 复 用 CPU。 假 定 总 有 多 个 进程 就 绪 并 准备 执行 ， 那 么 主 
存 就 会 成 为 性 能 瓶颈 。 假 设 有 N 个 进程 被 加 载 到 主 存 中 ， 还 将 有 附加 的 K 个 进程 如 果 能 够 分 配 主 存 就 能 
运行 ; 那么 只 要 N 个 进程 的 任 一 个 被 /JO、 信 号 量 或 其 他 的 条 件 阻塞 ， 它 所 占有 的 主 存 就 不 能 用 于 做 任何 
事情 。 因 为 这 部 分 主 存 已 经 分 配给 阻塞 的 进程 ， 所 以 无 论 是 N -1 个 在 主 存 中 的 进程 ， 还 是 K 个 等 待 的 进 
程 都 不 能 使 用 它 。 虚 拟 存储 器 和 交换 技术 通过 释放 阻塞 进程 的 主 存 来 解决 主 存 不 够 的 问题 ， 从 而 在 进程 被 
阻塞 的 网 时， 使 K 个 等 待 进程 中 的 某 一 个 能 够 使 用 主 存 。 


11.5.1 交换 


采用 交换 技术 (swapping) 的 存储 管理 器 是 这 
样 工 作 的 ; 在 一 个 进程 被 阻塞 时 ， 试 图 通过 将 它 移 
出 主 存 来 优化 系统 性 能 ， 释 放 它 占 有 的 主 存 分 配给 
其 他 进程 使 用 。 在 被 交换 出 去 的 进程 又 返回 就 绪 状 
态 时 ， 使 它 重 新 获得 主 存 并 重新 加 载 进来 。 例 如 ， 
当 进 程 p; 请 求 一 个 I/O 操作 时 ， 它 就 会 变 成 阻塞 状 
态 ， 并 在 相当 长 的 时 间 内 不 会 回 到 就 绪 状 态 。 当 进 
程 管理 器 将 进程 转 人 阻塞 状态 时 ， 它 会 通知 存储 管 
理 器 ， 因 而 存储 管理 器 就 能 够 决定 是 否 应 该 将 该 进 
程 的 主 存 映像 交换 到 辅 存 中 (参见 图 11.21)。 当 进 
程 管理 器 把 一 个 阻塞 进程 转 人 就 绪 状态 时 ， 如 果 它 
是 被 交换 出 去 的 ， 进 程 管理 器 就 通知 存储 管理 器 ， 
如 果 主 存 可 用 ,或 者 至 少 一 旦 主 存 变 成 可 用 的 ， 存 


Pp 的 映像 






将 p, 交 换 出 主 存 
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图 11-21 交换 
TE: 交换 系统 将 段 在 主 存 和 辅 存 间 来 回 传送 。 当 
有 段 在 主 存 中 时 , 它 可 以 被 活路 的 进程 使 用 ,但 
是 当 它 被 交换 到 辅 存 时 ,使 用 这 些 地 址 空间 的 
进程 会 阻塞 ,直到 它们 被 再 次 交换 回 主 存 中 。 
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储 管 理 器 能 够 立即 再 把 该 进程 的 地 址 空间 交换 回 主 存 中 。 

当 一 个 进程 被 交换 出 去 ， 它 的 整个 可 执行 映像 被 拷贝 到 辅 存 中 ， 当 它 又 被 交换 回 可 用 的 主 存 中 时 ， 交 
换 出 去 的 可 执行 映像 ， 就 会 被 拷贝 到 由 存储 管理 器 分 配 的 新 主 存 块 中 。 如 果 没有 可 重 定位 硬件 的 支持 ， 由 
于 地 址 绑 定 问题 ， 交 换 将 很 难 实现 。 如 果 有 可 重 定位 硬件 ， 可 执行 映像 简单 地 被 拷贝 到 新 分 配 的 主 存 区 域 
中 并 加 载重 定位 寄存 器 。 

交换 技术 尤其 适用 于 分 时 系统 ， 因 为 在 这 种 系统 中 ， 用 户 登录 到 了 机 器 (因而 使 用 了 一 些 资源 )， 可 
能 有 相当 长 的 一 段 时 间 没 有 活动 (因而 没有 使 用 CPU)， 所 以 有 时 间 来 进行 交换 。 采 用 交换 技术 的 存储 管 
理 器 是 这 样 适应 分 时 的 : 将 主 存 分 配给 以 相对 高 的 速率 请 求 系统 服务 的 进程 ， 但 在 进程 请 求 系统 服务 频 度 
低落 期 间 ， 释 放 进程 所 占有 的 主 存 。 即 在 一 个 分 时 系统 中 ,甚至 在 进程 处 于 就 绪 状 态 时 ， 存 储 管理 器 也 可 
能 决定 把 它 从 主 存 中 交换 出 去 ， 这 取决 于 机 器 的 整个 负载 情况 和 交互 式 用 户 的 活动 。 

一 个 交换 系统 的 关键 特点 是 : 如 果 进 程 将 在 一 个 相对 长 的 时 间 内 不 使 用 CPU， 那么 它 应 该 释放 占有 的 
主 存 ， 让 其 他 进程 使 用 主 存 和 CPU。 分 时 系统 中 的 存储 管理 器 常常 通过 采用 一 种 策略 ， 使 得 对 主 存 和 
CPU 的 请 求 远 远 多 于 可 用 的 主 存 资源 。 存 储 管理 器 选择 准备 放弃 主 存 (以 及 CPU) 的 一 些 进程 ， 因 而 其 
他 进程 有 机 会 使 用 它们 所 占有 的 资源 。 被 选中 的 进程 由 存储 管理 器 阻塞 (在 请 求 主 存 时 )， 然 后 它们 的 主 
存 被 释放 。 它 们 到 达 重 新 开始 与 其 他 的 进程 竞争 主 存 的 状态 。 分 时 系统 (如 很 多 老 版 本 的 UNIX) 使 用 交 
换 技术 ， 在 一 个 不 平衡 的 请 求情 景 中 提供 公平 的 服务 。 当 活跃 用 户 的 数目 超过 系统 阔 值 时 ， 存 储 管理 器 就 
会 开始 交换 进程 。 

一 些 交换 策略 几乎 总 是 要 求 有 多 道 程 序 设计 、 交 互 式 系统 环境 ， 甚 至 要 有 很 大 容量 的 物理 存储 器 的 支 
持 。 由 于 机 器 的 整体 负载 是 通过 持续 的 、 不 可 预测 的 各 个 用 户 的 活动 来 确定 的 ， 因 此 存在 某 进 程 长 时 间 占 
有 主 存 ， 但 却 处 于 静止 状态 的 情形 。 只 要 没有 其 他 的 进程 因为 申请 存储 空间 被 阻塞 ， 就 没有 交换 的 必要 。 
然而 ， 一 且 存 储 请 求 队列 开始 增长 ， 并 且 进 程 萝 止 的 时 间 超 过 了 一 个 系统 阔 值 ， 存 储 管理 器 就 开始 将 进程 
从 主 存 中 交换 出 去 。 随 着 存储 请 求 队列 的 增长 ， 系 统 闭 值 可 能 会 减 小 ， 交 换 的 效果 用 户 很 容易 察觉 到 ， 因 
为 响应 时 间 明 显 地 增加 了 。 

决定 是 否 将 一 个 进程 交换 出 去 ， 可 能 取决 于 进程 期 望 被 阻塞 的 时 间 ， 或 者 交换 出 去 进程 以 达到 公平 共 
SEAM CPU 效果 的 需要 。 可 以 看 到 ， 通 过 交换 所 获得 的 性 能 增长 对 进程 不 利 ， 因 为 进程 将 不 得 不 再 次 
竞争 请 求 主 存 。 性 能 的 获得 是 从 整个 系统 范围 来 看 的 ， 例 如 ,减少 了 进程 的 平均 周转 或 响应 时 间 。 

那么 交换 一 个 进程 出 去 的 开销 是 什么 昵 ? 如果 一 个 进程 占有 S 个 主 存单 元 ， 我 们 能 够 计算 出 将 可 执行 
映像 拷贝 到 辅 存 的 时 间 ， 以 及 当 交 换 进 来 时 ， 将 可 执行 映像 从 辅 存 拷贝 回 主 存 所 用 的 时 间 。 如 果 一 个 磁盘 
块 存放 也 个 主 存单 元 ， 那么 存储 管理 器 为 了 保存 可 执行 映像 ， 将 需要 写 至 少 R= [S/D 1(R 的 值 限定 为 
比 商 大 的 下 一 个 最 小 的 整数 ) 个 磁盘 块 。 而 当 将 地 址 空间 交换 回 主 存 时 ， 也 要 完成 相同 数目 的 磁盘 读 操作 。 
进程 的 开销 是 当 它 被 交换 出 去 而 又 处 于 就 绪 状 态 后， 竞争 主 存 所 花费 的 时 间 。 因 而 无 论 什么 时 候 存储 管理 器 
决定 交换 一 个 进程 出 去 ， 所 有 的 开销 就 是 交换 2R 个 磁盘 块 的 时 间 以 及 重新 请 求 主 存 所 造成 的 时 间 延 迟 。 

假设 进程 管理 器 将 一 个 占有 S 个 主 存单 元 的 进程 状态 改变 为 阻塞 ,并 维持 在 阻塞 状态 工 个 时 间 单位 ， 
那么 时 空乘 积 Sx T 就 表示 由 于 进程 被 阻塞 的 同时 占有 主 存 所 造成 的 资源 浪费 。 如 果 S 很 小 ,而 存储 管理 
器 交换 该 进程 ,将 只 获得 很 小 数目 的 主 存 可 被 其 他 进程 使 用 ; 如果 工 很 小 ,该 进程 将 很 快 又 开始 竞争 主 存 ; 
如 果 T<R ,逻辑 上 在 该 进程 被 交换 结束 之 前 它 就 又 开始 请 求 主 存 。 为 了 使 交换 有 成 效 , 对 存储 管理 器 选择 
的 要 交换 出 去 的 进程 来 说 , T 必须 比 2R 大 得 多 才 可 行 ,并 且 S 必须 足够 大 以 使 其 他 的 进程 能 够 执行 。 

存储 管理 器 知道 每 个 进程 的 S， 但 它 只 能 在 一 个 进程 被 阻塞 时 预测 T 的 值 。 如 果 一 个 进程 是 由 于 在 
慢 速 设备 上 的 1/0 操作 被 阻塞 ， 那 么 存储 管理 器 能 够 估计 TAST 的 最 低 界 限 。 当 一 个 进程 由 于 任 一 资 
源 请 求 而 被 阻塞 时 (例如 ， 对 一 个 信号 量 的 忆 操作 ,或 者 请 求 一 个 连续 可 重用 资源 )， 存 储 管理 器 就 不 能 
估计 出 工 的 值 。 在 保守 的 交换 策略 中 ， 一 个 进程 不 会 由 于 这 样 的 请 求 而 被 交换 ， 但 在 积极 的 交换 策略 中 ， 
进程 几乎 可 能 由 于 任 一 请 求 操 作 而 被 交换 出 去 。 

如 果 存 储 管理 器 由 于 严重 的 主 存 竞争 而 决定 交换 一 个 进程 ， 那 么 它 会 计算 一 个 不 同 的 时 空乘 积 S x 
六 ，T" 是 进程 占有 S 个 主 存单 元 的 时 间 数 。 如 果 某 个 进程 p; 的 S x T" 比 较 大 ， 并 且 其 他 进程 等 待 交换 进 ， 
入 主 存 ， 那 么 就 表示 该 进程 已 经 占有 主 存 相对 比较 长 的 时 间 了 。 为 了 公平 共享 ， 存 储 管理 器 可 能 将 进程 p， 
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交换 出 去 ， 而 将 某 个 其 他 的 进程 交换 进来 使 用 p; 以 前 占有 的 空间 。 
11.5.2 虚拟 存储 器 


虚拟 存储 器 策略 允许 一 个 进程 在 仅 将 部 分 地 址 空间 加 载 到 主 存 时 使 用 CPU。 在 这 种 方法 中 ， 每 个 进程 
的 地 址 空间 被 划分 成 很 多 个 部 分 ， 它 们 在 被 使 用 的 时 候 
加 载 到 主 存 中 ， 和 否则 写 回 到 辅 存 中 ( 见 图 11-22)。 程 序 
编写 中 自然 有 隐 含 的 地 址 空间 划分 。 例 如 ，C 程序 的 编 
译 转 换 模 型 将 地 址 空间 分 为 代码 、 数 据 以 及 栈 段 。 

代码 段 通常 由 程序 定义 的 计算 相关 的 一 组 分 区 组 
成 。 例 如 ， 几 乎 所 有 的 程序 都 有 一 个 初始 化 数据 结构 的 
阶段 、 读 取 输 入 数据 的 阶段 、 一 个 或 多 个 用 于 实际 计算 
的 阶段 〈 取 决 于 算法 )， 其 他 还 有 错误 恢复 的 报告 的 阶 
段 以 及 输出 的 阶段 。 类 似 的 隐 含 分 区 也 通常 存在 于 数据 
段 中 ,程序 的 访问 局 部 性 特征 一 一 称 为 空间 局 部 性 
(spatial locality)， 对 于 虚拟 存储 器 所 采用 的 策略 来 说 非 
常 重要 。 当 一 个 程序 在 它 的 一 部 分 地 址 空间 中 执行 时 ， 
它 的 空间 局 部 性 是 指 在 该 计算 阶段 所 使 用 的 地 址 空间 的 





集合 ， 随 着 计算 移动 到 一 个 不 同 的 阶段 (访问 程序 或 数 地 址 空间 主 存 
据 的 地 址 空间 的 不 同 部 分 ， 或 者 同时 访问 它们 的 不 同 部 图 11-22 虚拟 与 物理 存储 
分 )， 它 就 改变 了 局 部 性 特征 。 注 :图 的 左边 表示 了 进程 的 地 址 空间 。 在 这 种 情 


在 图 11-22 中 ， 地 址 空间 被 划分 成 5 个 部 分 ， 然 而 况 下 ， 地 址 空间 被 分 为 5 个 不 同 的 段 。 当 前 
在 图 示 的 时 刻 程序 只 使 用 第 1 部 分 和 第 4 部 分 范围 内 的 只 有 1、4 部 分 加 载 到 主 存 中 (所 有 的 5 段 被 
地 址 空间 ,从 而 只 有 第 1、4 部 分 被 加 载 到 主 存 中 ， 程 加 载 到 辅 存 中 ) ， 因 为 进程 仅 使 用 这 些 特定 段 
序 中 的 不 同 部 分 会 在 不 同 的 时 间 内 加 载 ， 这 取决 于 进程 中 的 信息 。 

的 局 部 性 特征 。 虚 拟 存储 管理 器 的 任务 是 : 参照 程序 的 局 部 性 特点 ， 当 进程 使 用 某 部 分 地 址 空间 时 ， 保 证 
将 相应 的 部 分 加 载 到 主 存 中 。 

理论 上 ， 虚 拟 存储 管理 器 分 配 与 地 址 空间 分 区 一 样 大 小 的 主 存 空间 ， 然 后 加 载 相应 地 址 空间 分 区 的 可 
执行 映像 到 已 分 配 的 主 友 中 ， 因 此 极 大 地 增加 了 主 存 对 其 他 进程 的 可 用 性 。 假 设 媚 拟 存 储 器 设计 得 很 “ 完 
美 "， 即 它 总 是 知道 程序 局 部 性 的 确切 地 址 集合 , .并 且 总 是 在 它们 被 访问 之 前 ,准确 地 将 地 址 空间 中 的 那 
些 部 分 加 载 到 主 存 中 (并 在 它们 不 再 是 局 部 性 集合 的 部 分 时 印 载 )。 如 果 能 达到 这 种 境界 ， 那 么 进程 根本 
感觉 不 到 它 没有 被 分 配 与 它 的 地 址 空间 一 样 大 的 主 存 。 

实现 虚拟 存储 器 必须 要 克服 哪些 障碍 呢 ? 存储 管理 器 必须 能 够 处 理 在 程序 执行 期 间 存在 的 、 各 个 局 部 
性 部 分 中 的 相应 地 址 空间 。 系 统 必须 能 够 加 载 一 个 分 区 到 主 存 的 任 一 个 地 方 ， 并 动态 地 绑 定 该 部 分 中 的 地 
址 到 它 加 载 的 物理 位 置 。 分 配给 进程 的 主 存 数目 是 变化 的 ， 可 能 有 很 多 ， 或 者 仅 是 很 小 的 数目 ， 也 可 能 一 
次 全 部 加 载 到 主 存 中 。 

FE 20 世纪 70 年代， 虚拟 存储 器 开始 出 现在 高 端的 商业 化 机 器 中 。 在 那个 时 候 ， 主 存 的 开销 是 很 大 
的 ， 主 存 的 数目 限制 了 机 器 的 使 用 。 虚 拟 存储 器 为 处 理 器 提供 了 一 种 方式 ， 可 以 在 比 进程 地 址 空间 小 的 主 
存 中 执行 进程 ， 这 就 允许 系统 设计 者 使 用 相对 小 的 主 存 区 域 ， 来 实现 更 多 的 多 道 程序 设计 。 例 如 ， 一 个 有 
256KB 主 存 的 机 器 ， 使 用 虚拟 存储 器 可 能 同时 支持 8 道 程序 设计 ， 而 使 用 其 他 分 区 可 变 策略 只 能 同时 支持 
4 道 程序 设计 。 虚 拟 存储 器 的 动机 是 为 了 克服 主 存 限 制 ， 同 时 使 主 存 配置 有 更 好 的 性 价 比 。 当 代 虚 拟 存储 
管理 器 为 了 通过 减 小 存储 访问 时 间 延 迟 而 减 小 进程 的 执行 时 间 ， 在 存储 层次 中 融和 人 了 虚拟 存储 技术 。 尽 管 
采用 虚拟 存储 器 的 最 初 动 机 是 主 存 的 开销 ， 但 在 现代 操作 系统 中 已 结合 了 开销 和 性 能 两 方面 的 考虑 。 


| 





示例 : 使 用 高 速 缓存 存储 器 
如 本 章 开 始 部 分 所 讨论 的 ， 当 代 计 算 机 经 常 使 用 高 速 缓存 来 提高 机 器 的 性 能 。 高 速 缓存 是 一 种 可 以 高 
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速 访问 的 存储 器 ， 它 位 于 处 理 机 与 连接 处 理 机 和 主 存 的 总 线 之 间 的 数据 通路 上 ( 见 图 11-23)。 在 a) 部 分 
中 ， 当 处 理 机 要 访问 主 存 时 ， 它 要 与 所 有 其 
他 的 设备 一 起 竞争 总 线 的 使 用 ， 这 常常 会 使 
CPU 需要 等 待 另 一 个 设备 完成 访问 。 使 用 
虚拟 存储 器 的 原理 ， 制 造 商 就 能 够 在 硬件 设 
计 中 ,在 CPU 和 系统 总 线 之 间 结合 加 入 一 
级 高 速 缓存 ( 见 图 中 的 b) 部 分 )。 在 这 种 设 
计 中 ， 只 要 CPU 要 访问 主 存 ， 被 访问 信息 
的 拷贝 就 会 被 放 到 高 速 缓存 中 ， 如 果 下 一 次 
处 理 机 访问 相同 的 主 存 位 置 ， 就 可 以 在 高 速 
缓存 中 找到 结果 ， 而 不 需要 使 用 总 线 去 访问 





在 主 存 中 的 拷贝。 图 11-23 高 速 缓存 

如 同 在 诬 拟 存储 系统 中 分 区 信息 是 从 辅 。 注 ， 高速 组 丰 用 来 减少 系统 总 线 或 其 他 的 互连网 络 ) 上 
存 拷贝 到 主 存 中 一 样 ， 在 一 个 使 用 高 速 缓存 的 活动 。a) 部 分 显示 了 没有 高 速 缓存 的 机 器 结构 。 在 
的 系统 中 ，cache line 中 存放 的 是 从 主 存 拷贝 b 部 分 中 ， 高 速 缓存 位 于 总 线 和 CPU 之 间 。 当 CPU 
到 高 速 缓存 的 内 容 。 大 多 数 的 高 速 缓存 策略 发 出 对 主 存 的 读 命令 时 ， 要 将 存储 器 中 的 信息 做 一 份 
是 通过 硬件 实现 的 。 与 之 不 同 的 是 通常 的 虚 拷贝 ， 然 后 将 其 存放 在 高 速 缓存 中。 如 果 CPU 再 次 读 
拟 存储 器 策略 ， 是 通过 软 、 硬 件 结合 来 实现 取 相 同 的 地 址 ， 它 将 使 用 高 速 缓存 中 的 值 而 不 用 到 主 
的 。 因 而 对 于 操作 系统 中 的 存储 管理 器 来 存 中 去 取 值 。 


说 ， 高 速 缓存 的 出 现 几乎 不 需要 什么 额外 的 开销 。 

高 速 缓存 的 使 用 能 够 从 根本 上 影响 系统 的 性 能 ， 这 取决 于 CPU 的 主 存 访问 模式 特性 ， 以 及 在 高 速 组 
存 管理 器 中 所 采用 的 策略 。 在 最 差 的 情况 下 ， 高 速 缓存 的 使 用 不 会 带 来 性 能 的 提高 ， 因 为 开销 抵消 了 访问 
时 间 的 减少 ;而 在 最 好 的 情况 下 ， 有 效 的 主 存 访 问 时 间 能 够 减少 1/2 BK 1/3, 
Z| 





11.5.3 共享 存储 器 的 多 处 理 机 


多 处 理 机 的 研究 已 经 进行 了 几 十 年 , 但 直到 20 世纪 80 年 代 ， 它们 才 形 成 可 行 的 商业 化 计算 机 。 少 数 
的 多 处 理 机 为 了 提高 基本 的 处 理 速 率 而 摆脱 汉 . 诺 依 曼 体系 结构 ， 但 大 多 数 多 处 理 机 中 的 每 个 处 理 器 都 采 
用 基本 的 汉 : 诺 依 曼 体系 结构 。 多 处 理 机 已 经 发 展 为 两 个 大 类 : 分 布 式 存储 器 机 器 和 共享 存储 器 机 器 
[Hwang and Briggs, 1984]。 计 算 机 体系 结构 继续 在 发 展 ， 出 现 了 结合 有 Hwang and Briggs 特征 的 更 新 的 处 
理 机 。 计 算 机 体系 结构 专业 的 学 生 可 以 查阅 当前 最 新 的 文献 ， 如 计算 机 体系 结构 会 议论 文集 [IEEE], 或 
ASPLOS 年 会 [IEEE/ACM]， 去 看 一 下 令 人 激动 的 最 新 进展 情况 。 这 里 的 讨论 仅 限于 分 布 式 存储 器 和 共 
享 存储 器 机 器 的 组 织 结构 ， 说 明了 对 这 类 机 器 的 存储 管理 进行 扩展 的 必要 性 。 

分 布 式 存储 器 机 器 逻辑 上 等 同 于 网 络 ， 它们 依赖 于 处 理 机 之 间 的 消息 传递 来 共享 信息 。 这 些 机 器 以 及 
网 络 中 机 器 的 存储 管理 ， 是 当前 操作 系统 研究 中 的 一 个 主题 。 可 以 这 么 说 ， 这 些 机 器 间 只 能 靠 使 用 某 种 形 
式 的 消息 传递 才能 实现 信息 在 存储 器 间 的 物理 移动 ， 这 些 机 器 上 的 操作 系统 若 要 能 为 应 用 软件 提供 一 个 共 
享 存储 的 接口 ， 可 能 还 要 很 长 时 间 。 

本 节 重 点 介绍 共享 存储 器 机 器 。 共 享 存储 器 机 器 采用 的 -- 般 形式 如 图 11-24 所 示 ， 几 个 处 理 器 共享 一 
个 内 部 互连网 络 (通常 只 是 一 条 总 线 ) 来 访问 一 组 共享 存储 器 模块 。 硬件 编 址 机 制 允 许 在 任 一 处 理 器 上 的 
软件 ， 可 以 访问 在 内 部 互连网 络 上 的 任 一 存储 部 件 中 的 任 一 一 存储 单元 。 共 享 存储 器 多 处 理 机 的 发 展 趋势 是 
使 用 热 销 的 微 处 理 器 作为 处 理 器 引擎 ， 结合 复杂 的 内 部 互连网 络 一 一 这 个 部 件 是 共享 存储 器 机 器 中 的 一 个 
性 能 瓶颈 ， 并 且 使 用 工业 化 标准 的 存储 部 件 和 设备 。 大 多 数 共 享 存 储 器 机 器 的 操作 系统 是 UNIX 版 本 的 改 
写 ， 其 中 提供 了 系统 调用 接口 的 扩展 ， 以 操作 存储 器 地 址 ， 使 得 对 应 存储 空间 能 够 被 共享 。 

共享 存储 器 多 处 理 机 的 目标 是 使 用 进程 或 线程 实现 计算 单元 ， 并 且 经 由 公共 的 主 存单 元 来 共享 信息 。 
编译 链接 等 转换 软件 通过 为 每 个 进程 提供 它 自 己 单独 的 地 址 空间 ， 生成 了 屏障 保护 ( 见 图 11-25)。 进 程 1 
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的 地 址 空间 已 经 安排 好 了 ， 地 址 空间 的 最 后 一 个 “ 块 ”被 映射 到 共享 的 主 存 中 ; 进程 2 地 址 空间 的 第 一 个 
块 与 进程 1 地 址 空间 中 的 最 后 一 个 块 的 大 小 相同 。 现 在 ， 当 程序 被 同时 加 载 时 ， 两 个 独立 的 地 址 空间 中 的 
一 部 分 就 映射 到 同一 个 公共 的 主 存 位 置 。 当 进程 1 在 主 存 中 写 一 个 变量 时 ， 进 程 2 就 能 够 读 取 它 的 值 ， 所 
以 这 种 技术 能 显著 提高 性 能 。 


进程 1 地 址 空间 





进程 2 地 址 空间 
图 11-24 共享 存储 器 的 体系 结构 图 11-25 共享 地 址 空间 的 一 部 分 
TE: 共享 存储 器 多 处 理 机 采用 了 多 个 CPU， 它 们 TE: 假定 进程 1 和 进程 2 打算 共享 它们 地 址 空间 的 一 部 
都 共享 访问 一 组 相同 的 主 存 。 任 何 CPU 可 以 分 ,可 以 将 进程 1 地 址 空间 的 共享 部 分 绑 定 到 进程 
读 写 任何 一 个 主 存单 元 。 2 地 址 空间 对 应 的 主 存储 器 位 置 上 去 。 


在 图 11-26 中 ， 多 个 “可 重 定位 - 界限 寄存 器 对 ”用 于 支持 块 共享 技术 。 地 址 空间 被 划分 成 一 个 私有 
部 分 和 一 个 共享 部 分 ， 一 个 寄存 器 对 指向 私有 部 分 ， 一 个 寄存 器 对 指向 共享 部 分 。 进 程 1、2 分 别 使 它们 
共享 块 的 可 重 定位 - 界限 寄存 器 对 指向 同一 个 物理 主 存 位 置 。 然 后 操作 系统 必须 扩展 一 种 方法 ， 使 程序 识 
别 出 一 个 被 共享 的 块 ， 并 提供 相应 的 系统 调用 ， 使 共享 段 绑 定 到 相同 的 主 存 位 置 。 


执行 进程 1 的 CPU 








执行 进程 2 的 CPU 






物理 主 存 


图 11-26 共享 地 址 空间 的 一 部 分 
注 : 地 址 空间 的 共享 部 分 可 放 人 单个 的 段 中 ， 一 个 新 的 动态 重 定位 寄存 器 被 用 来 指向 共享 段 。 


内 部 互连网 络 一 一 共享 存储 器 多 处 理 机 的 关键 硬件 部 件 ， 被 每 个 CPU 用 于 每 次 的 存储 访问 。 通 过 对 
这 些 CPU 进行 实验 表明 ， 如 果 网 络 是 以 总 线 来 实现 的 ， 那 么 总 线 将 适合 于 在 少 于 4 个 CPU 的 机 器 中 使 
用 。 也 可 以 建立 更 为 复杂 的 内 部 互连网 络 ， 在 所 有 的 共享 存储 器 多 处 理 机 中 ， 为 了 减 小 内 部 互连网 络 的 负 
载 ， 为 了 增强 每 个 进程 的 性 能 ， 都 使 用 了 特定 的 高 速 缓存 。 
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高 速 缓存 通过 保存 经 常 使 用 的 信息 ， 能 够 从 根本 上 增强 计算 机 的 性 能 (甚至 单 处理 器 的 系统 )。 高 速 
缓存 是 比 正常 主 存 的 访问 速度 快 得 多 的 一 种 存储 器 ， 它 允许 处 理 机 从 高 速 缓存 中 获取 信息 而 无 需 使 用 总 
线 。 在 多 处 理 机 中 ， 所 有 的 CPU 可 能 都 在 同一 时 间 争 用 总 线 ， 因 而 总 线 的 竞争 限制 了 能 够 配置 到 多 处 理 
机 中 的 处 理 器 数目 。 

每 个 处 理 器 中 都 结合 有 高 速 缓存 被 证 明 是 行 之 有 效 的 ， 因 为 随 着 处 理 器 数目 增长 到 大 约 20 时 ， 它 能 
够 使 共享 存储 器 机 器 的 性 能 几乎 呈 线 性 增长 (取决 于 机 器 上 执行 的 程序 特性 )。 对 于 共享 存储 器 多 处 理 机 
来 说 ， 如 果 处 理 器 规模 增 大 到 一 个 更 大 的 数目 ， 那 么 必须 结合 高 速 缓存 ， 同 时 还 要 有 更 为 复杂 的 内 部 互 连 
网 络 。 

在 共享 存储 器 多 处 理 机 中 使 用 高 速 缓存 会 引 和 人 一 个 新 间 题 。 假 设 某 个 数据 结构 D， 分 别 被 处 理 器 X 
和 Y 上 的 进程 1 和 2 所 共享 。 当 进程 1 读 取 D 时 ， 它 就 从 存储 器 中 被 拷贝 到 X 的 高 速 缓存 中 ; 当 进 程 2 
ER DAN, CRAHEN AY 的 高 速 缓存 中 。 因 而 在 存储 层次 结构 中 存在 着 的 三 份 拷贝 : 最 初 的 在 主 
存储 器 中 ， 一 份 在 X 的 高 速 缓存 中 ， 另 一 个 拷贝 在 Y 的 高 速 缓 存 中 。 假 设 进程 1 写 数据 结构 D, RAR 
在 就 说 这 三 个 拷贝 不 一 致 (incoherent)， 因 为 它们 包含 有 不 同 的 值 。 

这 种 情形 在 共享 存储 器 系统 中 是 一 个 严重 的 问题 ， 因 为 它 意味 着 两 个 进程 程序 好 像 是 从 它们 的 共享 存 
储 器 进行 访问 的 ， 但 每 个 进程 在 同一 个 存储 单元 中 取得 了 不 同 的 值 。 有 几 种 方法 来 处 理 这 个 问题 : 

n 第 一 种 就 是 不 允许 共享 信息 (代码 或 数据 ) 被 高 速 缓存 ， 这 将 导致 性 能 的 下 降 。 

e 第 二 种 方法 是 不 保证 共享 存储 器 的 一 致 性 。 如 果 没 有 高 速 缓存 ， 存 储 器 模型 可 以 说 是 有 很 强 的 一 臻 

性 语义 。 

如 果 一 个 有 高 速 缓存 的 存储 系统 是 强 一 致 性 的 (strongly consistent)， 那 么 有 高 速 缓存 的 共享 存储 实现 
应 该 与 其 没有 高 速 缓 存 的 实现 语义 相同 。 一 个 弱 一 致 性 《weakly consistent) 的 存储 器 允许 两 个 拷贝 在 短 时 
间 内 可 以 有 不 同 的 值 ， 那 么 它 必须 结合 一 种 处 理 方法 ， 使 得 在 任 一 个 拷贝 被 写 操作 改变 以 后 ,能够 “很 
快 ”就 使 存储 一 致 起 来 。 在 一 个 弱 一 致 性 存储 系统 中 ， 为 了 使 程序 行为 正确 ， 编 写 的 应 用 程序 必须 要 有 存 
储 一 致 性 语义 的 知识 ， 并 有 明确 的 同步 。 因 此 ， 弱 一 致 性 存储 系统 必须 保证 能 够 实现 同步 原 语 ， 使 它们 的 
正确 行为 独立 于 存储 类 型 。 ` 

构造 保证 所 有 高 速 缓存 和 存储 器 一 致 性 的 机 制 是 困难 的 ， 因 为 它 必须 能 够 立即 检测 到 在 任 一 个 处 理 器 
上 发 生 的 对 共享 存储 拷贝 的 写 操 作 。 这 表明 一 致 性 必须 通过 每 个 机 器 中 的 内 部 互连网 络 或 高 速 缓存 硬件 来 
实现 ， 或 者 同时 利用 它们 来 实现 。 当 一 个 共享 存储 位 置 的 内 容 被 改写 时 ， 高 速 缓存 机 制 必须 立即 通知 所 有 
其 他 机 器 中 有 相应 存储 内 容 拷贝 的 其 他 高 速 缓存 或 一 个 集中 管理 的 设备 ,或 者 同时 都 通知 它们 。 所 有 的 拷 
N (除了 最 新 改写 的 拷贝 ) 都 要 变 成 无 效 ， 直 到 它们 使 用 新 的 值 进行 了 更 新 。 当 共享 存储 器 变 成 非 一 臻 
时 , 一致 性 机 制 保 证 当 新 数据 写 到 高 速 缓存 时 ， 就 将 它 写 人 存储 器 ， 从 而 能 够 立即 更 新 相应 的 高 速 缓存 拷 
忠和 最 初 的 存储 器 内 容 ， 这 种 方法 称 为 写 穿 迁 (write-through) 策略 。 在 另 一 种 实现 机 制 中 ， 可 能 不 会 立 
即 更 新 高 速 缓存 ， 推 迟 更 新 主 存储 器 内 容 直 到 不 远 的 将 来 的 某 个 时 间 ， 这 种 策略 称 为 写 回 (write-back) 策 
略 。 


11.6 小 结 


存储 管理 器 对 可 执行 的 存储 器 进行 管理 ， 随 着 需要 而 分 配给 不 同 的 进程 。 它 也 提供 在 存储 层次 结构 中 
的 各 个 部 分 间 来 回迁 移 信息 的 机 制 。 地 址 绑 定 是 数据 移动 的 根本 障碍 ， 这 是 因为 在 传统 的 转换 环境 中 ， 在 
程序 执行 之 前 ， 要 将 程序 地 址 指向 特定 的 物理 主 存 位 置 。 静 态 绑 定 限 制 了 存储 管理 器 在 主 存 中 移动 进程 地 
址 空间 的 能 力 。 

将 地 址 绑 定 从 加 载 时 间 推 迟到 运行 时 刻 机 制 的 基础 是 硬件 重 定位 寄存 器 。 这 种 机 制 允许 存储 管理 器 很 
容易 地 移动 进程 地 址 空间 ， 因 为 模块 中 的 地 址 被 限定 为 存储 访问 所 使 用 的 重 定位 寄存 器 内 容 指示 的 开始 地 
址 的 一 个 偏 移 量 。 利 用 界限 寄存 器 结合 重 定位 寄存 器 ， 提 供 了 一 种 可 靠 的 隔离 机 制 ， 且 开销 很 小 。 使 用 重 
定位 和 界限 寄存 器 ， 进 程 被 限制 只 能 够 访问 分 配给 它 的 那 部 分 主 存 。 

交换 策略 使 得 存储 器 可 以 被 更 多 的 活动 进程 共享 ， 而 不 只 是 给 一 次 加 载 到 主 存 中 的 进程 独 享 。 虚 拟 存 
储 器 通过 一 次 只 加 载 一 个 进程 地 址 空间 的 一 部 分 扩展 了 交换 技术 。 当 代 存 储 管 理 器 已 经 发 展 到 (或 正在 发 
展 ) 虚拟 存储 管理 。 
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共享 存储 器 多 处 理 机 包含 了 专门 的 存储 管理 软件 和 硬件 。 高 速 缓 存 处 于 存储 单元 和 处 理 器 之 间 ， 用 来 提 
供 更 高 的 访问 速度 。 然 而 ， 一 旦 引进 了 高 速 缓存 ， 系 统 必 须要 提供 方法 使 得 共享 存储 器 的 多 个 拷贝 保持 一 致 。 
本 章 主要 讨论 存储 管理 中 的 一 些 背景 知识 ， 下 一 章 更 为 详细 地 讨论 了 虚拟 存储 系统 。 


11.7 习题 


1. 进程 地 址 空间 和 主 存 地 址 间 的 区 别 是 什么 ? 

2. 使 用 Linux/UNIX 系统 工具 名 字 重 画图 11-6， 为 一 组 C 程序 模块 一 一 filel.c、file2.c 和 file3.c 
执行 作 准 备 。 在 图 中 ， 显 式 地 标 上 stdio Ml CH 1ib.a。 重 定位 对 象 模 块 和 绝对 程序 使 用 缺 省 名 。 

. 在 Linux/UNIX 中 ， 链 接 器 可 以 链接 由 不 同 程序 设计 语言 生成 的 可 重 定 位 对 象 模块 吗 ? 解释 一 下 
原因 。 

4. 一 个 采用 可 变 分 区 大 小 策略 的 存储 管理 器 ， 有 一 个 空闲 列表 ， 其 中 包含 的 空闲 块 大 小 分 别 为 ，600、 

400、1000、2200、1600 以 及 1050 字 节 。 

a. 使 用 最 佳 适合 方案 ， 哪 一 个 块 会 被 选择 来 满足 一 个 1603 字 节 的 请 求 ? 

b. 使 用 最 佳 适 合 方案 ， 哪 一 个 块 会 被 选择 来 满足 一 个 949 字 节 的 请 求 ? 

c. 使 用 最 大 适合 方案 ， 哪 一 个 块 会 被 选择 来 满足 一 个 1603 字 节 的 请 求 ? 

d 

e 





w 


. 使 用 最 大 适合 方案 ， 哪 一 个 块 会 被 选择 来 满足 一 个 349 字 节 的 请 求 ? 

. 假设 空闲 列表 中 块 的 排列 次 序 如 问题 中 描述 的 一 样 ， 使 用 最 先 适合 方案 ， 哪 一 个 块 会 被 选择 来 满 
足 一 个 1603 字 节 的 请 求 ? 

f. 假设 空闲 列表 中 块 的 排列 次 序 如 问题 中 描述 的 一 样 ， 使 用 最 先 适 合 方案 ， 哪 一 个 块 会 被 选择 来 满足 
一 个 1049 字 节 的 请 求 ? 

5. 存储 管理 器 能 够 根据 它 选择 的 分 配 策略 排序 空闲 列表 。 

a. 最 佳 适 合 方案 中 将 如 何 来 组 织 空闲 列表 ? 

b. 最 大 适合 方案 中 将 如 何 来 组 织 空闲 列表 ? 

c. 最 先 适 合 方案 中 将 如 何 来 组 织 空闲 列表 ? 

d. 下 一 个 适合 方案 中 将 如 何 来 组 织 空闲 列表 ? 

6. 某 个 操作 系统 为 每 个 进程 支持 四 个 不 同 的 地 址 空间 ， 称 为 S, 、S,、S. 和 Sy。 假定 存储 管理 器 加 载 
这 四 个 地 址 空间 到 如 下 的 物理 存储 器 中 


空间 物理 存储 器 位 置 
Se 0x00600000 
S, 0x00180000 
Se 0x01000000 
Sa 0x01010000 











则 对 下 面 的 每 个 进程 地 址 ， 相 应 的 物理 地 址 是 多 少 ? 

S, 中 的 0x00456789。 

Sa 中 的 0x0000089a。 

Ss 中 的 0x00043210。 

S. 中 的 0x00010234。 

Sa 中 的 0x000bcdef。 

Sa 中 的 0x01010000。 

. 假设 一 个 不 同 的 UNIX 版 本 提供 一 个 系统 调用 ， 由 它 返 回 一 个 指向 系统 地 址 空间 中 的 一 个 主 存 块 
的 指针 ， 该 块 能 够 被 所 有 的 进程 从 中 读 取 并 写 入 信息 。 解 释 一 下 UNIX 用 户 如 何 使 用 这 种 工具 ， 
来 定义 一 个 被 两 个 或 多 个 子 进程 所 共享 的 主 存 块 。 假 设 在 父 进 程 建立 这 个 块 的 时 候 ， 子 进程 已 经 
执行 了 exec。 

8. 如 果 操 作 系 统 保持 交换 映像 一 一 程序 的 直接 映像 ， 即 存储 在 主 存 中 用 来 执行 的 映像 ， 当 该 映像 被 
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重 载 到 主 存 中 的 另 一 个 不 同 的 位 置 而 不 是 上 次 所 使 用 的 主 存 部 分 时 ， 它 们 会 不 得 不 进行 重 定位 。 
解释 一 下 通常 情况 下 为 什么 不 能 编写 一 个 分 析 程 序 ， 由 它 从 辅 存 中 读 取 可 执行 映像 ， 并 且 保 证 能 
在 可 执行 映像 中 找到 每 个 地 址 ， 使 得 当 映 像 被 移动 时 允许 地 址 进行 重 定位 。 


9. 如 果 一 个 计算 机 系统 中 没有 用 于 重 定位 的 硬件 ,但 它 仍然 实现 了 交换 技术 ,存储 管 理 器 将 不 得 不 


11. 


12. 


13. 


使 用 加 载 器 从 绝对 映像 中 重新 计算 地 址 得 出 可 执行 映像 。 交 换 系 统 重 载 数据 和 堆栈 段 是 可 能 的 吗 ? 
解释 一 下 这 样 一 个 系统 是 如 何 工作 的 ， 或 为 什么 它 不 可 能 实现 ? 
10. 


针对 如 图 11-18 所 示 的 一 个 配 有 段 重 定 位 寄存 器 的 机 器 ， 考 虑 图 11-27 所 示 的 代码 序列 。 假 设 当 指 
令 在 相对 地 址 0100 处 执行 时 ， 代 码 段 寄存 器 被 加 载 为 0100， 那 么 控制 部 件 将 从 哪个 地 址 来 取 下 一 
条 指令 ? 


内 容 


load =1000, code_segment_register 
call 2000 





图 11-27 ”一 个 代码 段 例子 

图 6-10 是 简化 的 进程 状态 图 ， 其 中 有 运行 、 就 绪 以 及 阻塞 状态 。 修 改 该 图 使 它 包括 新 的 状态 ， 来 
表示 当 进 程 被 交换 出 去 的 状态 。 给 出 当 进 程 由 于 阻塞 而 被 交换 出 去 时 ， 及 存储 管理 器 决定 释放 主 
存 给 其 他 进程 使 用 时 的 状态 转换 。 

假设 系统 中 有 一 个 磁盘 ， 磁 盘 块 大 小 为 2KB， 并 且 块 的 平均 访问 时 间 是 20 毫秒 。 如 果 一 个 占有 
40KB 主 存 的 进程 ， 由 于 资源 请 求 而 从 运行 转 人 阻塞 状态 ， 那 么 进程 必须 维持 阻塞 状态 多 长 时 间 
再 被 交换 出 去 才 是 合理 的 ? 

[这 个 问题 在 第 9 章 中 出 现 过 ， 那 里 是 使 用 管道 解决 的 .] 在 UNIX 环境 中 构造 一 个 C/C++ 程序 ， 
使 用 梯形 规则 (trapezoidal rule) 在 [0, 2] 间隔 内 ,计算 下 式 的 近似 积分 值 : 

f (2) = 1/ (x41) 

这 种 计算 积分 的 近似 方法 称 为 数值 化 积分 。 在 你 的 方案 中 ,通过 N 个 单独 的 工作 进程 来 计算 n 个 
小 梯形 的 面积 。 控 制 进程 应 该 使 用 UNIX 系统 调用 fork () 和 exec ()， 来 生成 N 个 工作 进程 。 
阅读 实验 11.1 关于 使 用 UNIX System V 共享 存储 的 有 关 信 息 ， 使 用 shmen 工具 来 实现 同步 和 信息 
共享 。 只 要 一 个 工作 进程 准备 计算 另 一 个 梯形 的 面积 ， 它 使 用 一 个 共享 的 变量 与 主 进程 同步 ， 并 
经 由 共享 主 存 得 到 新 的 任务 。 当 控制 进程 从 工作 进程 接收 到 所 有 的 数值 ， 就 进行 求 和 ， 并 打印 结 
果 及 获得 结果 所 使 用 的 时 间 。 其 中 忽略 建立 共享 主 存 的 时 间 。 实 验 中 ，N 分 别 取 1~8 之 间 的 值 ， 
n=64 个 梯形 ; 使 用 getTime () HH (参见 第 1 章 中 的 习题 ) 获取 时 间 标 准 ， 因 而 能 够 测量 代码 
处 理 所 花 的 时 间 。 在 你 的 过 程 中 包括 一 个 次 数 合适 的 for 循环 来 求 一 个 梯形 的 面积 ， 这 样 能 够 测 
量 完成 计算 的 时 间 。 在 坐标 图 中 ， 近 似 地 表示 出 所 用 时 间 与 梯形 数目 的 关系 。 


如 果 你 有 一 个 共享 存储 器 多 处 理 机 可 以 使 用 ， 那 么 就 利用 机 器 所 提供 的 共享 存储 器 内 核 扩展 功能 来 解 
决 这 个 问题 。 


实验 11.1: 使 用 共享 存储 器 





| 这 个 练习 可 以 在 任何 POSIX 系统 (或 有 System V 共享 存储 器 的 UNIX 系统 ) 上 实现 。 ”| 





逐次 松弛 (successive overrelaxation, SOR) ÆR nX n 的 线性 方程 系统 Ar = b 的 一 种 方法 。 给 定 系 
RUER A， 右 边 的 向 量 65”， 以 及 向 量 x 的 一 个 初始 估计 值 ， 使 用 该 算法 ， 基 于 z (i 关 j)、A 和 85， 重新 
计算 每 个 x; 的 值 。 首 先 写 出 n 个 方程 如 下 : 


a% ta +... + a = b 
CQ2D + aX, +... + a,x, = b, 


AX, + Ca2zx2 +t.. + Amnn = b, 








282 # i # 








使 用 第 ; 个 方程 来 计算 x; 的 式 子 如 下 ; 


xX; 5 (b; = Ay Xy — QiX2 — e — Gy) l iy 





现在 可 以 在 一 个 支持 ”个 进程 的 系统 中 通过 第 ; 个 进程 来 计算 z;， 从 而 实现 SOR。 使 用 POSIX 的 共 
享 存储 器 来 实现 SOR 方案 。 ， 


背景 


共享 存储 器 指 的 是 一 个 公共 的 存储 块 ， 有 两 个 或 更 多 进程 的 地 址 空间 被 映射 其 上 。 当 一 个 进程 将 信息 
存储 到 共享 存储 器 中 的 某 一 位 置 时 ， 使 用 共享 存储 器 的 任何 其 他 进程 可 以 使 用 CPU 寄存 器 load 操作 来 读 
取信 息 。 在 一 个 单个 的 计算 机 内 一 一 单 处 理 器 或 多 处 理 器 一 一 共享 存储 器 通常 是 两 个 进程 共享 信息 的 最 快 
方式 。 

在 当代 的 POSIX 版 本 中 常用 的 共享 存储 器 API 最 早 是 在 System V UNIX 中 引入 的 。 这 个 机 制 允 许多 
个 进程 将 一 个 公共 的 存储 段 映 射 到 它们 各 自 的 地 址 空间 中 去 一 一 逻辑 上 它 是 存储 管理 器 的 一 部 分 一 一 在 
System V UNIX 上 ， 它 是 作为 进程 间 通 信 机 制 的 一 部 分 来 设计 和 实现 的 。 


共享 存储 器 API 

共享 存储 器 允许 任何 进程 动态 地 定义 一 个 新 的 存储 块 。 新 块 独立 于 静态 程序 转换 工具 建立 的 地 址 空 
间 。 每 个 UNIX 进程 被 创建 时 具有 4GB 的 虚拟 地 址 空间 ， 并 且 地 址 空间 中 程序 相关 的 部 分 (通常 很 小 ) 
用 来 存放 编译 后 的 代码 、 静 态 数据 、 栈 和 堆 。 虚 拟 地 址 空间 中 剩余 的 地 址 并 没有 被 使 用 。 在 一 个 新 的 共享 
存储 器 块 定义 后 ， 它 对 应 于 一 个 没有 使 用 的 虚 地 址 块 。 一 旦 共享 存储 器 块 被 映射 到 虚 地 址 空间 中 ， 进 程 对 
共享 存储 器 的 读 写 就 好 像 是 对 普通 的 存储 器 读 写 一 样 。 因 为 不 止 一 个 进程 可 将 共享 存储 器 块 映射 到 它 自己 
的 地 址 空间 中 去 ， 读 写 共享 存储 器 的 代码 段 通常 被 认为 是 临界 区 。 

下 面 的 四 个 系统 调用 定义 了 所 有 的 共享 存储 器 系统 调用 接口 : 


#include <sys/types.h> 
#include <sys/ipc.h> 
#include <sys/shm.h> 


int shmget(key t key, int size, int shmflg); 

void *shmat(int shmid, char *shmaddr, int shmflg); 
void *shmdt(char *shaddr); 

int shmctl(int shmid, int cmd, struct shmid_ds *buf); 


简单 地 说 ，shmget () 系统 调用 建立 共享 存储 器 块 ，shmat () 将 一 个 存在 的 共享 存储 器 块 映射 到 进程 
的 地 址 空间 中 ，shmdt () 从 进程 的 地 址 空间 中 移 除 共 享 存储 器 块 ，shmct1 () 是 一 个 多 用 途 的 函数 (和 
ioctl () 的 式样 相同 ) ， 它 可 以 用 来 对 共享 储存 器 块 执行 所 有 的 控制 命令 。 

为 了 建立 一 个 新 的 共享 存储 器 块 ， 进 程 可 以 调用 shmget ()。 如 果 shmget () 成 功 地 建立 了 一 个 新 的 
存储 器 块 ， 它 将 返回 类 型 为 int 的 共享 存储 器 标识 符 。 共 享 存储 器 标识 符 是 内 核 数 据 结 构 的 一 个 引用 (或 
句柄 )。 如 果 shmget〈) 可 以 建立 一 个 新 的 共享 存储 块 ， 它 会 返回 内 核 数 组 的 下 标 ， 下 标 用 于 引用 struct 
shmid _ kernel 数据 结构 的 一 个 实例 ， 它 包含 了 以 下 域 ; 


struct shmid kernel { 
shmid ds u; 


}; 


shmget () 函数 的 参数 为 key_t key, int size 和 int shmf1g。size 参数 用 来 指定 新 存储 块 的 字 节 数 ， 
然而 ， 所 有 的 存储 器 分 配 操 作 是 以 页 面 为 单位 来 进行 的 。 如 果 一 个 进程 请 求 1 个 字 节 的 存储 器 空间 ， 则 存 
储 管理 器 会 分 配 一 个 页 面 的 大 小 (在 1386 机 器 上 页 面 大 小 是 4096 字 节 )。 因 此 ， 新 分 配 的 共享 存储 块 的 大 
小 是 size 参数 向 上 舍 人 到 页 面 大 小 的 整数 倍 。 如 果 size 参数 为 0 到 4096 之 间 ， 则 会 分 配 一 个 4K 大 小 的 
存储 块 ，4097 到 8192 会 建立 一 个 8K 大 小 的 存储 块 等 。 
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key __t key 参数 可 以 是 已 存在 存储 块 的 key， 也 可 以 设置 为 0 或 IPC_ PRIVATE, WR key REA IPC_ 
PRIVATE, M| shmget () 调用 会 建立 一 个 新 的 共享 存储 块 。 当 key 设置 为 0 A shmflg 设置 为 IPC _ CREAT 标 
志 时 ，shmflg 参数 也 可 建立 一 个 新 的 存储 块 8。 如 果 一 个 进程 想 要 访问 一 个 其 他 进程 〈 如 父 进 程 或 服务 
器 ) 建立 的 共享 存储 块 ， 则 它 会 获得 struct shmid _ kernel 的 引用 。 然 而 ， 它 可 以 设置 key 参数 为 一 个 已 
存在 的 存储 块 的 key 值 。 如 果 key 值 这 样 设置 并 且 shmflg RIL IPC_CREAT/IPC_ EXCL, shmget () 将 
失败 。shnmf1g 也 为 用 户 、 组 对 存储 块 的 访问 定义 了 访问 权限 (对 于 文件 也 使 用 相同 的 方式 )。 

当 共 享 存储 区 域 已 经 成 功 地 建立 时 ，shmget () 调用 会 返回 它 的 struct shmid_ ds 结构 的 一 个 整 型 
引用 : 


struct shmid ds { 


struct ipc_ perm shm perm; /* operation perms */ 

int shm_segsz; /* size of segment (bytes) */ 
_kernel_time_t shm_atime; /* last attach time */ 
_kernel_time_t shm_dtime; /* last detach time */ 
_kernel_time_t shm_ctime; /* last change time */ 
_kernel_ipe pid t shm_cpid; /* pid of creator */ 
_kernel ipc pid t shm_lpid; /* pid of last operator */ 
unsigned short shm_nattch; /* no. of current attaches */ 
unsigned short shm_unused; /* compatibility */ 

void shm unused2; /* ditto - used by DIPC */ 
void shm_unused3; /* unused */ 


}; 


struct ipc _ perm shm_ pen 定义 了 共享 存储 块 的 拥有 者 和 其 他 进程 能 否 使 用 此 存储 块 。 它 包含 了 一 些 
R, 其 中 指定 了 拥有 者 的 用 户 ID 和 组 ID、 创 建 者 的 用 户 ID 和 组 ID、 访 问 模式 〈 读 或 写 ) ， 以 及 存储 块 的 
key 值 (使 用 man 命令 可 查看 shmid _ ds 和 ipc perm 结构 中 的 域 )。void * shmat (int shmid, char * 
shmaddr, int shmflg) 系统 调用 将 存储 块 绑 定 到 调用 进程 的 地 址 空间 中 去 。 
B smid 参数 是 建立 存储 块 的 shmget () 调用 返回 的 结果 。 
B shnaddr 指针 是 共享 存储 块 中 第 一 个 被 映射 单元 的 抽象 地 址 。 如 果 调 用 进程 并 不 希望 选择 存储 块 被 
映射 的 地 址 ， 它 应 该 为 shmaddr 传递 0 值 。shmaddr 的 值 应 该 以 页 为 单位 来 进行 对 齐 。 如 果 shmaddr 
指定 了 且 shmflg 声称 为 SNM_RID， 则 地 址 将 会 是 SHMLBA 常量 的 倍数 。 
@ shmflg 参数 与 shmget() 中 的 相应 标志 是 以 相同 的 方式 使 用 的 。 它 用 来 设 定 smat () 系统 调用 中 的 
大 量 不 向 的 1 位 标志 。 
除了 SHM _ RND 标志， 调用 进程 可 以 将 shmaddr 参数 设置 为 SHM RDONLY, 这样， 调用 进程 只 能 对 存储 
块 进行 读 操 作 ， 而 不 能 进行 写 操作 。 

当 一 个 进程 不 再 使 用 共享 存储 抉 时 ， 它 调用 void* shmdt (char * shaddr)，shaddr 为 与 存储 块 相关 的 
地 址 。 内 核 将 更 新 相应 的 struct shmid _ kernel 来 反映 存储 块 不 再 被 该 进程 使 用 。 

最 后 一 个 共享 存储 器 调用 是 int shmctl (int shmid, int cmd, struct shmid_ds* buf)， 用 来 执行 对 共 
享 存储 块 描述 符 的 控制 操作 。 

E shmid 参数 标识 出 了 共享 存储 块 ，cmd 指定 了 应 用 于 描述 符 上 的 命令 。 

E 如 果 cmd 被 设置 为 IPC_ STAT， 则 调用 进程 必须 提供 一 个 缓冲 buf， 至 少 是 和 struct shmid_ kernel 
结构 一 样 大 。shnct1 () 调用 填写 shmid_ ds 的 当前 值 并 将 它们 返回 到 but H, WE ond 被 设置 为 
IPC_ SET， 并 且 调 用 进程 为 拥有 者 或 创建 者 的 话 (或 有 超级 用 户 权 限 )， 则 数据 结构 会 被 更 新 。 若 
cmd 参数 设置 为 IFC_RMID， 则 调用 会 促使 存储 段 被 销毁 。 存 储 块 也 可 被 超级 用 户 进行 加 锁 和 解锁 。 

下 面 是 一 个 简单 的 示例 ， 父 进程 创建 了 一 个 共享 存储 块 ， 并 且 创 建 了 一 个 可 以 使 用 这 个 存储 块 的 子 

进程 


O shmflg 变量 是 一 个 标志 位 集合 。 如 果 要 在 shmflg 中 置 上 多 个 标志 位 ， 请 对 多 个 标志 位 宏 进行 逻辑 或 (“|”) 操 
作 后 赋值 给 shmflg。 
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#include <sys/types.h> 
#include <sys/ipc.h> 
#include <sys/sem.h> 
#include <sys/wait.h> 
#define SHM_SIZE 


void run_child(int, int); 


int main() { 
int pid, shm_handle, status; 
char *my_shm ptr; 


/* Create the shared memory */ 
shm handle = shmget(IPC_PRIVATE, SHM_SIZE, IPC_CREAT | 0x1C0); 


if(shm_handle == -1) { 
printf(“Shared memory creation failed\n”); 
exit(0); 


} 


/* Start the child */ 
if((pid = fork()) == 0) { 

run_child(childNum, shm handle); 
exit(0); T 
} 

/* Do work, share results with child via shared memory */ 
my_shm ptr = (char *) shmat (shm handle, 0, 0); 
if(my_shm ptr == (char *) -1) { 

printf(“Shared memory attach failed\n”); 
exit(0): 

} 

/* Wait for the children to finish */ 
wait (&status); 
shmetl(shm_handle, IPC RMID, 0); /* Remove shared memory */ 
printf£(“Parent: Terminating\n"”); 

} 


void run_child(int me, int shm_handle) { 
char *my_ shm ptr; 
int i; 
unsigned int shm _ flag = 0; 


/* Attach the shared memory */ 
my_shm_ptr = (char *) shmat(shm_handle, 0, 0); 
if(my_shm_ ptr == (char *) -1) { 
print£(“Shared memory attach failed\n”); 


exit(0); 
} 
*(my_shm_ptr+64+i) = ...; /* Write shmem location i */ 
e+e = my_shm ptrt+i); /* Read shmem location i */ 


解决 问题 
因为 使 用 逐次 松弛 ,需要 使 用 个 不 同 的 进程 来 解决 x n 线性 方程 系统 ， 你 需要 组 织 代码 使 得 父 进 
程 创建 个 不 同 的 子 进程 ， 每 个 子 进程 将 计算 一 个 方程 。 首 先 ，config.h 文 件 定义 了 的 最 大 值 ; 


# define MAX_N 4 


父 进程 的 工作 就 是 建立 共享 存储 块 ， 创 建 a 个 不 同 的 子 进程 ， 并 且 当 所 有 的 计算 完成 时 终止 进程 。 下 
面 是 代码 的 框架 ; 
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/* A Successive Overrelaxation (SOR) program */ 
include wae 


#define NMEM ... 


/* Shared memory */ 
int shm_handle[...]; 
double ...; /* A, x, and b arrays */ 


main(int argc, char *argv[]) { 
double epsilon; 


int solverPID[MAX_N]; 
/* Initialization */ 
/* Create the shared memory */ 


shm_handle{N_MEM} = ... 


/* Map the memory into this process’s address space */ 
N ptr = ... 


/* Define epsilon, N, A, b, and the initial guess of x */ 


/* Create N worker processes, setup IPC using pipes */ 
makeWorkers(...); 


/* Solve the system of equations */ 
while(check(A, x, b) > epsilon) { 


} 
/* System has converged */ 
yield(); 
cleanUp(); 
printResult(x, check(A, x, b, N), N}; // Print the results 
exit(0); 


} 
最 后 ， 考 虑 子 进程 的 代码 框架 : 


void solver(int me) { 
yield(); 
while(l!isConverged()) { 
X_ptr[me] = solveX(A_ptr, X_ptr, B ptr, *N ptr, me); 
} 
} 
int isConverged() { 
if(...) 
return TRUE; 
else 
return FALSE; 








第 12 章 ”虚拟 存储 器 


虚拟 存储 管理 器 对 传统 的 存储 器 抽象 进行 了 扩展 ， 它 为 每 个 虚拟 机 提供 了 非常 大 的 主 存 空 间 。 虚 拟 主 
存 是 通过 以 下 方式 进行 工作 的 : 当 信 息 需要 被 使 用 时 ， 它 将 信息 从 辅 存 拷贝 到 主 存 中 ， 在 信息 更 新 后 ， 它 
将 信息 拷贝 到 辅 存 中 。 由 操作 系统 来 处 理 信息 在 主 存 和 辅 存 间 的 来 回 传递 而 无 需 程 序 员 的 干预 。 本 章 概括 
了 前 一 章 引 入 的 动态 重 定位 机 制 并 说 明了 它 如 何 用 作 段 式 系统 和 页 式 系统 的 基础 。 我 们 然后 研究 分 页 设 
i+, JA 20 世纪 80 年 代 占 主导 地 位 的 静态 分 页 系统 到 今天 的 动态 分 页 系统 。 最 后 ， 我 们 将 对 作为 可 替代 页 
式 算法 的 段 式 虚拟 存储 进行 讨论 。 


12.1 概述 


尽管 虚 存 是 在 20 世纪 80 年 代 后 才 出 现 商 业 计 算 机 系统 中 ， 但 是 在 大 约 1960 年 时 ， 它 就 在 Atlas 系统 
中 使 用 了 [Kilbum, etal., 1962], Æ 20 世纪 60 FARRE, IBM., M.LT. 和 其 他 前 沿 研究 实验 室 的 工 
作 人 员 阅 述 了 页 式 虚 存 技 术 在 商业 上 的 可 行 性 [Denning，1970; Denning，1980]。 到 20 世纪 80 年 代 中 
期 ， 许 多 操作 系统 对 存储 管理 器 进行 了 更 新 来 支持 页 式 虚 存 。( 在 1980 年 ,在 VAX 上 使 用 的 BSD Version 
3 UINX 支持 了 页 式 虚 存 [McKusick，et al. ，1996]。) 

正如 你 开始 所 看 到 的 ， 虚 拟 存储 管理 器 将 信息 在 计算 机 的 各 个 存储 层次 间 进 行 拷贝 (特别 是 在 主 存 和 
辅 存 之 间 )， 因 此 CPU 可 以 凭借 信息 的 使 用 频率 确定 在 哪儿 发 现 信 息 。 换 句 话 说， 经 常 使 用 的 信息 拷贝 到 
主 存 中 。 当 信息 不 再 被 频繁 使 用 时 ， 它 被 恢复 到 辅 存 中 。 

虚拟 存储 策略 避免 了 在 辅 存 和 主 存 间 来 回 拷贝 整个 地 址 空 
间 ， 相 反 ， 当 必要 时 ， 仅 将 进程 p; 地 址 空间 的 一 部 分 从 辅 存 
拷贝 到 主 存 中 ( 见 图 12-1)。 在 页 式 虚 存 系统 中 ， 这 一 部 分 是 
地 址 空间 的 固定 尺寸 的 页 。 在 段 式 虚 存 系统 中 ， 这 一 部 分 是 地 
址 空间 内 容 的 可 变 尺 十 的 段 。 

传统 存储 管理 器 的 大 部 分 仍然 适用 于 虚拟 存储 系统 ( 抽 
象 、 分 配 、 隔 离 和 共享 ): 存储 管理 器 仍然 是 主 存 的 资源 管理 辅 存 
器 。 但 是 它 现在 是 基于 虚拟 存储 器 策略 (而 不 是 用 户 程序 请 
求 ) 来 分 配 存 储 空间 的 。 它 仍然 为 存储 器 提供 了 抽象 ， 但 是 现 
在 的 抽象 是 巨大 的 虚拟 存储 器 而 不 局 限于 物理 存储 器 大 小 。 这 主 存 
就 是 第 11 章 中 讨论 的 地 址 空间 抽象 :编写 的 程序 使 用 的 是 虚 图 12-1 虚 存 组 织 
拟 地 址 空间 ， 它 好 像 就 是 主 存 一 样 。 通 过 将 虚拟 地 址 空间 绑 定 。 注 , 在 虚拟 存储 器 系统 中 ， 当 进程 p; 访 
到 分 配给 进程 的 主 存 ， 存 储 管理 器 能 够 实现 隔离 机 制 和 共享 机 问 信息 时 ， 存 储 管理 器 将 进程 p, 地 


p, 的 存储 映像 


制 。 虚 存 的 策略 使 得 进程 并 没 意 识 到 虚 存 地 址 空间 如 何 绑 定 到 址 空间 的 一 部 分 拷贝 到 主 存 中 。 当 
主 存 中 ， 这 是 由 存储 管理 器 独立 确定 的 。 进程 p; 不 再 访问 信息 时 ， 辅 存 中 的 

我 们 通过 观察 虚拟 地 址 如 何 转换 成 主 存 地 址 来 开始 相关 的 信息 会 被 更 新 并 且 主 存 中 的 信息 拷 
研究 。 这 将 有 助 于 理解 页 式 和 段 式 间 的 区 别 。 因 为 分 页 是 今天 贝 会 被 删除 。 


的 主流 虚 存 方 法 ， 我 们 将 花费 大 量 的 篇 幅 来 讲述 分 页 。 然 而 ， 
分 段 是 一 个 较 优 的 方法 ， 我 们 将 在 本 章 末 介绍 它 。 


12.2 地址 转换 


在 交换 系统 中 ， 绝 对 模块 中 的 地 址 空间 与 程序 被 执行 的 主 存 地 址 空间 之 间 没 有 什么 大 的 区 别 ， 因 为 两 个 
空间 一 样 大 (只 通过 重 定位 值 来 区 别 )。 虚 拟 存储 系统 要 在 符号 名 、 虚 拟 地 址 以 及 物理 地 址 空间 之 间 加 以 区 
分 ， 从 符号 名 映射 到 虚拟 地 址 ， 并 从 韦 拟 地 址 映射 到 物理 地 址 。 有 两 种 基本 的 方法 建立 虚拟 地 址 - 物理 地 址 
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映射 段 式 和 页 式 。 本 节 首 先 讨 论 一 般 地 址 映射 是 如 何 进 行 的 ， 然 后 讨论 段 式 与 页 式 思想 有 何 异同 点 。 


12.2.1 地 址 空间 映射 


源 程 序 中 的 实体 是 使 用 符号 标识 符 、 标 号 以 
及 变量 来 表示 的 ， 这 些 实体 都 是 程序 的 名 字 空 间 
(mame space) 的 元 素 。 当 程序 通过 编译 器 和 链接 
器 转换 成 绝对 程序 时 ( 见 11.2 节 和 图 12-2)， 名 
字 空 间 中 的 每 个 符号 名 被 转换 成 一 个 虚拟 地 址 。 
虚拟 地 址 空间 (以 前 称 为 地 址 空间 ) 包含 了 出 现 
在 绝对 加 载 模 块 中 的 所 有 地 址 。 当 绝对 映像 通过 
加 载 程序 (或 通过 使 用 动态 地 址 重 定位 硬件 ) 被 
转换 成 可 执行 映像 时 ， 每 个 虚拟 地 址 被 转换 成 主 
存 中 的 一 个 物理 地 址 ( 见 11.4 节 )。 在 虚 存 存储 
管理 器 中 ， 虚 拟 地 址 到 物理 地 址 的 转换 是 在 运行 
时 实现 的 。 它 使 用 了 基本 的 动态 地 址 重 定位 硬 
件 。 在 一 些 高 级 的 虚拟 存储 管理 器 中 ， 源 程序 的 
一 些 名 字 是 在 运行 时 进行 转换 的 ， 我 们 将 在 
12.6 节 描述 这 种 转换 是 如 何 实现 的 。 首 先 ， 我 
们 来 看 看 虚拟 地 址 如 何 转 换 成 物理 地 址 。 

如 上 所 述 ， 转 换 系 统 使 用 虚 地 址 创建 程序 的 可 执 
行 形式 ， 并 可 以 将 其 写 人 辅 存 。 当 一 个 进程 内 的 线程 
开始 执行 程序 时 ， 它 仅 将 程序 的 一 部 分 加 载 到 主 存 
中 。 当 线程 访问 当前 并 没有 加 载 到 主 存 中 的 虚拟 地 址 
空间 的 一 部 分 时 ， 操 作 系统 会 挂 起 程序 的 执行 并 从 畏 
存 中 加 载 需 要 的 信息 OLA 12-3)。 在 需要 的 信息 被 
加 载 到 主 存 中 特定 的 物理 地 址 时 ， 线 程 会 从 中 断 的 指 
令 处 继续 执行 ， 但 是 它 使 用 的 是 包含 访问 对 象 的 主 存 
物理 地 址 。 在 虚 存 管理 器 中 ， 对 于 适合 执行 的 程序 ， 
操作 系统 必须 能 够 将 程序 映像 中 的 每 个 虚拟 地 址 映射 
到 相应 的 物理 地 址 ， 这 取决 于 在 任意 时 刻 被 加 载 到 物 
理 地 址 空间 的 是 哪 部 分 虚拟 地 址 空间 。 为 了 表达 准 
确 ， 设 虚拟 地 址 转换 映像 为 B， 这 是 从 程序 的 虚拟 地 
址 空间 到 物理 地 址 空间 的 随时 间 z 而 变化 的 映像 : 

B,: 虚 拟 地 址 空间 一 物理 地 址 空间 U | Ql 
EF, 为 进程 的 一 个 非 负 整数 虚拟 时 间 ，0Q 为 表 
示 空 地 址 的 特殊 符号 。 在 特定 的 计算 机 中 ， 地 址 转 
换 映 射 的 实现 可 以 是 满足 这 个 数学 定义 的 任 一 种 技 
术 。( 这 就 是 为 什么 把 问题 描述 为 一 个 数学 抽象 的 
原因 ， 任 何 实现 该 抽象 的 机 制 都 是 可 以 接受 的 。) 
这 么 多 年 以 来 ， 虚 拟 存储 管理 器 为 地 址 转换 映射 使 








物理 地 址 空间 


图 12-2 名字、 虚拟 地 址 以 及 物理 地 址 
WÈ: 源 程序 的 编写 使 用 的 是 名 字 空 间 中 的 一 组 符号 名 。 当 
程序 转换 成 绝对 程序 时 ， 每 个 符号 名 被 转换 成 虚拟 地 
址 (属于 某 个 虚拟 地 址 空间 )。 在 运行 时 ， 当 前 正在 
使 用 的 地 址 空间 部 分 被 拷贝 到 主 存 中 ， 因 此 ， 它 有 一 
个 物理 主 存 地 址 。 当 信息 载 人 主 存 时 ,信息 所 在 的 虚 
拟 地 址 被 转换 成 主 存 地 址 。 


物理 地 址 空间 
辅 存 0 





主 存 


图 12-3 加载 不 在 主 存 中 的 信息 
TE: 每 个 进程 虚 地 址 空间 的 内 容 保持 在 辅 存 中 。 当 CPU 
需要 不 在 主 存 中 的 信息 时 ， 虚 拟 存储 管理 器 会 将 进 
程 地 址 空间 内 容 的 一 部 分 拷贝 到 主 存 中 ， 然 后 就 可 
以 通过 CPU 的 load 和 store 指令 来 进行 读 写 。 最 
后 ， 虚 拟 存 储 管理 器 会 将 信息 写 回 辅 存 中 。 


用 了 许多 不 同 的 实现 技术 ， 大 多 数 实现 技术 是 基于 表 的 ， 这 些 表 支 持 快 速 的 查找 功能 。 


当 虚 拟 地 址 空间 中 的 一 个 元 素 i 被 加 载 到 主 存 时 ，B, (i) 就 是 虚拟 地 址 i 被 加 载 位 置 的 相应 的 物理 地 
址 。( 在 表 的 实现 中 ,这 意味 着 表 中 的 项 i 包含 了 虚拟 地 址 对 应 的 物理 地 址 。) 如 果 i 没有 加 载 到 主 存 中 ， 
那么 B, (i)=Q ; 如 果 在 虚拟 时 刻 t AB, (i)=Q ， 并 且 进 程 /线程 读 写 虚 拟 地 址 ;， 那 么 虚拟 存储 管理 器 
会 从 辅 存 中 将 单元 i 的 内 容 拷贝 到 主 存 中 〈 见 图 12-3)。 特 别 地 ， 虚 拟 存储 管理 器 会 执行 下 列 活动 ; 

1) 虚拟 存储 管理 器 将 中 断 进 程 的 执行 。 
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2) 从 辅 存 中 重新 取出 欲 访 问 的 信息 ， 并 且 加 载 到 某 个 主 存单 元 上 处。 

3) 管理 器 然后 将 B, (i) = 0 改 为 B, (1) =k o 

4) 管理 器 最 后 让 程序 继续 执行 。 

在 一 条 指令 开始 执行 后 ， 当 存储 管理 器 试图 将 虚拟 地 址 转换 成 物理 地 址 时 ， 会 发 现 要 从 虚拟 地 址 空间 
中 访问 的 元 素 不 在 主 存 中 。 注 意 ， 要 访问 的 元 素 不 在 主 存 会 引起 一 系列 的 事件 来 实现 加 载 元 素 并 重新 定义 
了 映射。 一旦 元 素 已 经 加 载 ， 访 问 该 元 素 的 指令 要 在 虚拟 时 刻 t 被 重新 执行 。 因 此 ， 虚 拟 存储 系统 要 求 CPU 
能 够 “收回 ”在 执行 的 指令 ， 并 在 地 址 转换 映射 被 重新 定义 后 ， 重 新 执行 指令 。 (再 次 注意 ， 上 述 数学 描 
述 准 确定 义 了 丢失 的 页 如 何 被 识别 ， 因 而 任何 实现 抽象 的 机 制 都 是 可 以 被 接受 的 。) 

在 虚拟 存储 系统 中 ， 虚 拟 地 址 空间 要 比分 配给 进程 的 物理 地 址 空间 大 得 多 ， 即 进程 使 用 了 比 物理 空间 
更 多 的 虚拟 空间 。 回 想 第 11 章 中 对 典型 存储 管理 的 讨论 ， 当 进程 加 载 时 ， 它 的 整个 地 址 空间 被 一 次 加 载 。 
在 一 个 多 道 程序 设计 系统 中 ， 很 多 进程 能 够 同时 加 载 它们 整个 的 地 址 空间 ， 这 意味 着 系统 隐 含 地 要 求 程序 
可 用 的 地 址 空间 比 机 器 的 物理 地 址 空间 〈 主 存 的 大 小 ) 还 要 小 一 些 。 如 果 有 个 这 样 的 典型 系统 ， 配 置 有 
1MB 的 主 存 (在 1985 年 来 说 已 相当 大 了 )， 并 且 系 统 能 支持 4 个 分 区 ， 那 么 每 个 进程 将 能 够 分 配 到 大 约 
256KB 的 主 存 ， 因 而 一 个 进程 使 用 的 平均 地 址 空间 大 小 为 56KB。 而 在 今天 的 虚拟 存储 系统 中 ， 进 程 的 地 
址 空间 达到 几 个 GB 的 大 小 也 不 足 为 奇 。(Windows 和 Linux 中 的 每 个 进程 可 以 有 4GB 的 地 址 空间 。) 


12.2.2 上段 式 和 页 式 


FLA (segmentation) 是 对 前 面 提出 的 使 用 重 定位 - 界限 寄存 器 进行 重 定位 和 绑 定 主 存 块 地 址 思想 的 扩 、 
展 。 程 序 员 定义 的 程序 是 作为 可 变 大 小 分 段 来 进行 加 载 或 印 载 的 ， 如 第 11 章 中 所 述 。 分 段 可 能 显 式 地 通 
过 程序 语言 指令 来 定义 ， 或 者 隐 含 地 通过 程序 语义 定义 ， 如 UNIX C 编译 器 中 生成 的 正文 、 数 据 以 及 堆栈 
段 。 通 过 使 用 如 下 的 两 部 分 虚拟 地 址 来 访问 存储 器 内 容 : 

< SegmentNumber，offset > 

如 图 12-4 所 示 ，segmentNumber 标识 虚拟 存储 器 中 特定 
的 逻辑 块 ，offset 是 从 分 段 开始 的 一 个 线性 偏 移 量 。 在 纯 
段 式 系统 中 ， 虚 拟 存储 系统 会 在 主 存 和 辅 存 之 间 来 回 传送 
整个 段 ， 因 而 段 是 在 这 种 技术 中 在 两 种 存储 器 之 间 传 送 的 
虚 存 单位 。 注 意 在 段 和 可 变 大 小 存储 区 域 间 的 相似 性 ; 像 
可 变 大 小 的 存储 分 配 系统 ， 段 式 系统 易 产 生 外 部 碎片 。 

RA, (paging) 使 用 单 部 件 地 址 ， 就 像 在 任 一 特定 段 中 被 用 
于 寻 址 单元 的 地 址 一 样 。 在 页 式 系统 中 ， 虚 拟 地 址 空间 是 一 个 
虚拟 地 址 的 线性 序列 ， 这 是 一 种 与 段 式 地址 空间 的 组 织 结构 不 
同 的 形式 (很 像 图 11-2 中 所 描述 的 地 址 空间 )。 这 个 巨大 的 虚 
拟 地 址 块 被 分 成 一 组 尺寸 相同 的 页 ， 所 以 虚拟 地 址 空间 大 小 是 
页 尺寸 的 整数 倍 。 例 如 ， 如 果 有 一 百 万 个 虚拟 地 址 并 且 每 个 页 


段 3 





图 12-4 ”上段 式 名 字 空 间 的 组 织 结 构 
注 ; 段 将 虚拟 地 址 空间 分 为 一 组 不 同 的 存储 





有 1000 个 字 节 ， 则 最 初 的 1000 个 地 址 为 页 0， 第 二 个 1000 个 区 域 ， 段 中 的 字 节 都 有 线性 地 址 集 。 在 

地 址 为 页 1， 依 此 类 推 。 所 以 一 百 万 个 地 址 为 1000 个 页 。 在 页 这 种 系统 中 ， 虚 拟 地 址 是 一 个 有 序 对 

式 系统 中 ， 是 完全 由 虚拟 存储 管理 器 定义 传送 单位 一 一 页 面 ， < segmentNumber, offset>, segment- 

它 将 在 主 存 和 辅 存 之 间 来 回 传送 。 Number 标识 出 了 段 ，offset 标识 出 了 
在 页 式 存 储 管理 器 中 ， 页 大 小 对 程序 员 是 完全 透明 的 。 段 中 的 字 节 。 


这 种 方式 好 的 一 方面 是 : 虚拟 存储 管理 器 负责 选择 页 面 在 
主 存 和 辅 存 间 来 回 传送 ， 而 不 用 关心 外 部 的 碎片 。 程 序 员 不 必 知 道 虚拟 地 址 是 否 已 加 载 到 物理 存储 器 中 。 
不 好 的 一 方面 是 : 在 页 式 系统 中 ， 程 序 员 没有 办 法 通知 虚拟 存储 器 系统 有 关 虚 拟 地 址 空间 的 逻辑 单位 ， 即 
虚拟 存储 器 系统 不 知道 页 之 间 存 在 的 关系 。 

段 式 机 制 给 程序 员 提供 了 更 多 对 存储 系统 中 传送 单位 的 控制 ， 这 种 控制 意味 着 段 式 系统 要 比 页 式 系统 使 
用 起 来 困难 一 些 ， 除 非 分 段 是 由 编译 器 自动 生成 的 。 段 式 比 页 式 效率 更 高 ， 因 为 程序 员 能 够 指定 同时 用 于 执 
行 的 虚拟 地 址 单元 的 集合 ， 例 如 当 “ 编 译 器 的 第 二 次 扫描 ”时 。 然 而 ， 虚 拟 存储 系统 在 主 存 中 放置 各 段 将 会 
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遇 到 更 多 的 困难 ， 因 为 它们 是 可 变 大 小 的 、 从 而 会 引起 如 同 可 变 分 区 存储 系统 中 的 外 部 碎片 问题 。 在 最 后 的 
分 析 中 ， 可 以 看 出 段 式 可 能 比 页 式 更 适合 进程 的 运行 行为 ， 尽 管 它 可 能 难以 使 用 且 确 实 难以 实现 。 


12.3 页 式 


在 页 式 系统 的 分 配 策略 中 ， 只 要 程序 执行 中 需要 访问 虚拟 地 址 空间 中 的 单元 ， 就 通过 传送 一 个 固定 大 
小 的 虚拟 地 址 空间 单位 一 一 页 来 实现 ， 从 而 减少 了 外 部 碎片 的 产生 。 每 个 进程 的 虚拟 地 址 空间 逻辑 上 被 划 
分 成 多 个 页 ， 同 时 每 个 页 带 有 相同 的 单元 数 ， 如 图 12-5 所 示 。 如 果 主 存 不 是 页 大 小 的 倍数 ， 那 么 在 逻辑 
地 址 空间 的 高 端 ， 也 只 会 生成 很 少量 的 碎片 。 


图 12-5 地 址 空间 与 页 
TE: 页 式 系统 将 虚拟 地 址 空间 分 成 一 组 固定 大 小 的 页 ， 这 些 页 的 边界 对 软件 来 说 并 不 可 见 。 虚 拟 存储 管理 器 在 主 
存 和 辅 存 间 来 回 传送 页 。 


程序 转换 工具 并 没有 采取 特别 的 动作 为 绝对 模块 的 操作 做 准备 ， 程 序 转换 映像 (假设 有 字 节 ) 对 应 
于 进程 的 虚拟 地 址 空间 。 操 作 系 统 和 转换 系统 确定 哪 部 分 虚拟 地 址 用 来 表示 程序 映像 。 为 了 简单 起 见 ， 我 
们 假定 程序 映像 对 应 于 虚拟 地 址 0 和 一 1， 当 进程 中 的 线程 执行 时 ， 它 会 被 分 配 足 够 的 主 存 来 存储 HF 
存储 单元 的 内 容 ， 其 中 H<G 成 立 ， 即 进程 会 有 比 虚 拟 地 址 空间 G 少 的 物理 主 存单 元 。 

在 一 个 采用 二 进 制 的 计算 机 中 ， 页 式 系统 将 绝对 模块 中 的 虚拟 地 址 (0 到 G- 1) 映射 到 一 个 有 n=2s 个 页 
面 的 集合 中 ， 每 个 页 面 大 小 为 c=2* (参见 图 12-53)。 例 如 ,在 Windows 和 Linux 中 ，G=22 字 节 地 址 。 在 奔腾 
页 式 硬件 中 ， 页 是 22 (4096) 字 节 ， 即 g= 20, h= 
12。 当 然 ， 进 程 将 仅 使 用 虚拟 地 址 空间 的 一 部 分 &， 
即使 有 G 虚拟 地 址 可 用 。 

物理 地 址 空间 是 指 分 配给 进程 的 主 存 分 区 ， 分 
配 的 单位 是 页 帧 (page frames)， 一 个 大 小 与 页 面 
相同 的 主 存 块 。 分 配给 进程 的 页 帧 之 间 不 需要 是 连 
续 的 ， 因 为 页 映像 B, 能 够 将 虚拟 地 址 空间 中 的 每 
个 单独 页 ， 上 映射 到 主 存 中 的 一 个 特定 的 页 帧 上 (或 
者 是 Q@， 如 果 页 没有 被 加 载 到 页 帧 中 )。 更 为 准确 
地 说 ， 物 理 地 址 空间 可 以 被 认为 是 一 个 有 m= 2! 





给 进程 的 主 存 块 数目 为 日 =2:+i。 图 12-6 中 概括 ( 主 存 页 帧 
了 页 与 页 帧 的 关系 。 图 12-6 页 的 映射 


由 于 程序 访问 形态 的 局 部 性 《参见 11.5 节 )，。 注 : 虚拟 地 址 空间 由 =2 个 页 面 组 成 ， 进 程 被 分 配 了 
在 任意 时 刻 进程 只 需要 使 用 所 有 页 的 一 个 子 集 ( 见 m=2 页 帧 。 页 式 转换 映射 表 为 当前 加 载 的 页 i 提供 
图 12-7)。 即 编写 的 程序 有 许多 不 同 的 阶段 ， 当 线 了 页 帧 地 址 ， 如 果 页 未 被 加 载 ， 则 为 Q 
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程 在 一 个 阶段 时 ， 它 仅 需要 虚拟 地 址 空间 的 一 部 分 。 当 它 改 变 阶 段 时 ， 线 程 使 用 虚拟 地 址 空间 的 不 同 部 
分 。 每 个 这 样 的 “部 分 ”定义 了 一 个 局 部 集 。 线 程 执 行使 用 了 一 个 局 部 集 对 应 阶段 的 运行 时 间 。 


Pi 的 地 址 空间 


BE 初始 化 代码 (只 运行 一 次 ) 
Bg 91 的 代码 

BS 92 的 代码 

BE 3 的 代码 

O 错误 1 的 代码 

Be 错误 2 的 代码 

EE 错误 3 的 代码 

数据 和 栈 


<1% 


15% 
35% 


20% 


<1 { 


30% 


执行 时 间 





图 12-7 访问 局 部 性 
注 : 这 幅 图 解释 了 在 计算 的 不 同 阶段 使 用 地 址 空间 的 不 同 部 分 。 地 址 空间 部 分 的 大 小 与 线程 在 此 空间 内 执行 的 时 
间 没 有 关系 。 例 如 ， 初 始 化 代码 可 能 很 大 ， 但 是 线程 在 此 代码 段 内 运行 的 时 间 很 少 。 


页 式 系统 的 目标 就 是 要 找 出 满足 当前 进程 访问 的 局 部 性 所 需要 的 页 、 然 后 只 将 那些 页 加 载 到 主 存 中 。 
随 着 程序 执行 阶段 的 改变 一 一 从 一 个 局 部 集 到 了 另 一 个 局 部 集中 ,保存 有 原来 局 部 集 的 页 将 会 从 主 存 中 印 
载 ， 然 后 包含 新 的 局 部 集 的 页 就 会 被 加 载 到 这 些 空 出 的 页 帧 中 。 相 同 的 现象 会 出 现在 程序 使 用 数据 的 不 同 
部 分 时 。 

页 式 系统 必须 能 够 将 每 个 虚拟 地 址 〈0 到 G - 1) 转换 成 一 个 物理 地 址 ， 使 用 < pageFrameNumber，off- 
set> 来 访问 每 个 主 存单 元 。 而 且 ， 作 为 地 址 转换 和 加 载 页 过 程 的 一 部 分 ， 必 须要 能 够 动态 地 将 页 绑 定 到 
页 帧 中 。 这 是 页 式 系 统 设计 中 第 一 个 挑战 性 的 问题 。 


页 式 虚 拟 地 址 转换 


为 了 提供 准确 的 虚拟 地 址 转换 的 抽象 描述 ， 我 们 继续 对 地 址 转换 使 用 数学 描述 的 方法 。 设 一 个 虚拟 地 
址 空间 中 的 页 集合 表示 为 : 


设 分 配给 进程 的 主 存 页 帧 表示 为 : 


虚拟 地 址 是 一 个 非 负 整数 i, BOP 
(<i <'G'= 25% 
由 于 有 n=2s 个 页 ， 每 个 页 大 小 为 2* 字 ， 物 理 主 存 地 址 为 : 
k = UF t VO<V< 2") 

其 中 U 为 页 帧 号 。 在 这 个 方程 式 中 ，U2* 是 页 帧 U 中 的 第 一 个 字 节 的 主 存 地址 一 页 帧 中 偏 移 量 为 0 的 
物理 地 址 ， 并 且 V 是 页 帧 内 的 偏 移 量 。 

虚拟 地 址 到 物理 地 址 的 映射 可 表示 为 : 

B,:[0:G -1] >< U, V> UIQ} 

BN B, 将 虚拟 地 址 ; (0 过 i< G) 转换 成 物理 地 址 &〈 如 果 在 时 刻 上， 页 并 没有 存储 在 主 存 中 ， 则 为 Q)。 例 
如 ， 如 果 虚 拟 地 址 i 被 加 载 到 页 帧 导 +， 偏 移 量 为 s, 则 B, (G)=r*2 +s, 

接 下 来 考虑 一 下 映射 机 制 如 何 利用 虚拟 地 址 的 有 关 假 定 : 由 于 每 个 页 大 小 都 相同 且 为 c=2*， 那么 虚拟 地 址 
i 能 够 被 转换 成 一 个 页 号 (page number) 与 页 内 的 一 个 偏 移 量 ， 也 称 为 行 号 (line number) ， 如 下 所 示 : 

页 号 =|i/cj 
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其 中 | i/c] 表示 i 除 以 c 所 得 到 商 的 整数 部 分 一 一 传统 的 整数 除 操作 。 


473 =i mod c 
在 二 进 制 机 器 中 ， 数 字 是 使 用 基数 为 2 的 记 数 方式 来 
表示 的 ， 偏 爱 设置 c 为 2 的 寡 值 ， 因 为 能 够 通过 将 虚拟 地 
址 向 右 移 h 位 并 得 出 结果 中 最 低 端 g 个 有 意义 的 位 而 得 到 
页 号 ( 见 图 12-8) 。 这 种 移 位 操作 等 价 于 用 页 的 大 小 去 除 一 
个 整数 一 一 恰 是 上 面 介 绍 的 形式 化 操作 。 
在 移 位 之 前 ， 通 过 掩 码 运 算得 出 最 低 端 h 个 有 意义 的 


位 而 得 到 偏 移 量 。 复 杂 的 除 和 模 操 作 可 以 使 用 简单 且 快 速 


的 移 位 和 掩 码 操 作 来 实现 。 

在 确定 了 页 号 后 ， 需 要 计算 哪个 页 帧 包含 了 这 个 页 ， 
页 可 以 被 加 载 到 分 配给 进程 的 任 一 个 主 存 页 帧 中 。 页 转换 
(BR) 将 页 号 转换 成 该 页 被 加 载 的 物理 页 帧 号 ( 参 
见 图 12-8)。 这 可 以 通过 从 虚拟 地 址 中 提取 出 页 号 ， 然 后 根 
据 页 号 在 页 表 中 进行 查找 来 完成 。 页 转换 表 条 目的 内 容 为 
加 载 页 的 页 帧 基地 址 。 转 换 机 制 必须 做 一 个 查 表 操作 ( 实 
现 B,) 然后 将 偏 移 量 加 上 页 帧 开始 地 址 得 以 实现 。 

这 种 地 址 转换 可 以 完全 由 硬件 实现 。 自 从 20 世纪 80 
年 代 中 期 以 来 ， 在 流行 的 微 处 理 器 芯片 中 ， 都 配置 有 一 个 
用 于 实现 B, 映射 (页 表 ) 的 存储 管理 芯片 (常常 称 为 存储 





图 12-8 页 式 系统 的 地 址 转换 

注 : 这 是 硬件 虚 地 址 转换 的 示意 图 。 我 们 可 
以 做 除 和 模 操作 来 得 到 虚拟 地 址 的 页 号 
和 行 号 。 因 为 虚拟 地 址 是 一 个 二 进 制 数 ， 
我 们 可 以 使 用 掩 码 和 移 位 操作 (不 是 除 
操作 ) 来 握 取 页 号 和 行 号 。 


管理 部 件 或 MMU)。 如 果 没 有 这 种 硬件 的 广泛 应 用 ， 页 式 系 统 将 是 不 可 行 的 ， 因 为 地 址 转换 必须 作为 每 
次 主 存 访问 指令 执行 中 的 一 部 分 来 完成 。 图 12-8 表现 了 在 MMU 中 ， 一 种 简单 的 硬件 实现 地 址 转换 的 机 
W (虚拟 存储 器 在 这 个 方面 还 在 继续 发 展 )。 虚 拟 地 址 中 最 高 端 g 个 有 意义 的 位 被 传递 到 页 映射 B,， 如 果 
页 p; 当前 没有 被 加 载 到 主 存 ， 那 么 映射 操作 的 结果 会 是 一 个 缺 页 错 (missing page fault) ， 并 且 B, (p;)= 0 
; 如 果 页 当前 被 加 载 到 b;， 即 B( p;) = 65， 那 么 映射 结果 会 是 一 个 页 帧 导 6。 如 果 发 生 了 缺 页 ， 存储 管 
理 芯 片 会 向 微 处 理 器 芯片 发 送 一 个 中 断 ， 从 而 使 操作 系统 能 够 执行 下 列 步骤 : 


1) 请 求 缺 页 的 进程 被 挂 起 。 
2) 操作 系统 存储 管理 器 在 辅 存 中 定位 所 缺 的 页 。 
3) 该 页 被 加 载 到 主 存 ， 这 通常 会 引起 另 一 个 页 被 印 载 。 


4) 调整 存储 管理 器 中 的 页 表 ， 以 反映 主 存 的 新 状态 (B, (p;) = 6)。 


5) 进程 从 被 挂 起 的 点 重新 开始 执行 。 

如 果 转 换 的 结果 是 一 个 页 帧 号 而 不 是 缺 页 错 ， 那 么 将 
页 帧 的 基地 址 填充 到 物理 地 址 的 高 端 中 ,将 行 号 填充 到 物 
理 地 址 最 低 端 中 有 意义 的 部 分 ， 最 后 得 到 的 物理 地 址 作为 
主 存 地 址 传递 到 MAR (存储 地 址 寄存 器 ) 中 。 虚 拟 地 址 和 
物理 地 址 的 大 小 可 能 不 同 ， 这 取决 于 页 与 页 帧 寄存 器 大 小 
的 关系 。 

B 将 页 号 映射 到 页 帧 基地 址 ， 当 每 次 一 个 页 被 加 载 到 主 
存 时 ， 这 种 映射 关系 都 会 改变 。B, 的 一 种 实现 机 制 是 使 用 如 
图 12-9 所 示 的 一 个 表 ， 该 表 中 逻辑 上 包含 有 n 行 一 一 每 个 
页 号 一 行 ， 并 且 组 成 了 最 左 的 那 一 列 〈 图 12-9 中 的 行 号 与 
页 号 相同 )。 行 i 中 的 表 项 为 B,(i) 。 如 果 页 i 被 加 载 到 页 帧 























页 号 页 Ww 号 
E 0 3 
1 
— 
| 2 7 
G-1 a 9 














图 12-9 概念 上 的 页 表 
注 : 表 可 用 来 实现 B, 映射 ， 所 以 这 个 映射 通常 称 为 
“页 表 ”"。 在 这 个 例子 中 ， 每 个 页 都 有 一 行 对 应 ， 
页 0 中 加 载 了 页 帧 3， 所 以 对 应 行 中 值 为 3。 由 
于 页 1 中 没有 加 载 页 帧 ， 故 对 应 值 为 Q 


bP, BAC RE b 的 基地 址 ， 否 则 为 Q。 例 如 ， 图 12-9 中 ， 页 0 映射 到 页 帧 3 中 ， 页 1 没有 被 加 载 ， 页 2 


映射 到 页 帧 7 中， 依 此 类 推 。 


下 面 考虑 一 个 特定 的 地 址 转换 的 例子 。 假 设 一 个 系统 中 的 c= 100 (通常 情况 下 ， 在 二 进 制 机 器 中 < 将 
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会 是 2 的 军 值 ， 本 例 中 使 用 100 是 为 了 简化 算法 ) 3257 是 其 中 的 一 个 虚拟 地 址 ， 那 么 它 的 页 号 和 偏 移 量 
计算 如 下 : 
p =Li/c] =|3257/A00] = 32 
偏 移 量 行 号 = 3257 mod 100= 57. 

接 下 来 ， 如 果 请 被 加 载 到 页 帧 乌 ， 那 么 系统 会 使 用 B, We p 到 页 帧 5 中 ， 即 B, (p)=b, 6N B, (p) 
= 。 在 找到 包含 页 的 页 帧 后 ， 偏 移 量 加 上 页 帧 的 基地 址 来 确定 物理 地 址 x: 

物理 地 址 = B,(Li/c]) + (i mod c) 
如 果 在 例子 中 ,将 页 32 加 载 到 主 存 地 址 1900 处 的 页 帧 19 中 ,那么 : 
物理 地 址 = B,(L3257/100]) + (3257 mod 100) = B,(32) + 57 = 1900 + 57 = 1957, 
URARA RMR, BHO, MRRRASE TIRE. 


—— 
FH: 当代 的 页 表 实 现 

通常 情况 下 ， 如 图 12-9 所 示 的 页 表 是 稀 玖 的 ， 即 大 多 数 表 项 映射 为 9， 因 为 在 任意 时 刻 大 多 数 的 页 不 
需要 被 加 载 (由 于 程序 的 局 部 性 原理 )。 硬 件 设计 中 可 以 利用 这 种 情形 ， 联 想 或 内 容 寻 址 存储 器 (associa 
tive or content-addressable memory) 中 是 作为 一 个 反 向 页 表 (inverted page table) 来 实现 页 映射 的 。 联 想 存 
储 器 中 的 每 个 单元 包含 有 一 个 键 域 和 数据 域 ， 各 个 条 目 是 通过 键 值 而 不 是 单元 地 址 进行 访问 的 。 键 的 查寻 
是 通过 并 行 匹配 来 实现 的 ， 意 味 着 联想 存储 器 的 访问 速度 很 快 。 自 从 20 世纪 80 年 代 早期 开始 ， 小 容量 的 
联想 存储 器 (小 于 1K 个 条 目的 ) 就 已 经 变 得 可 行 了 。 在 20 世纪 50 年 代 后 期 ，Atlas 计算 机 的 页 表 实 现 中 
使 用 了 一 种 联想 存储 器 的 形式 【Kilbum etal., 1962]， 实 际 上 它 实现 的 联想 存储 器 ， 只 是 用 于 32 个 主 存 页 
, 帧 的 “页 地 址 寄存 器 ”的 阵列 。 

图 12-9 中 的 页 表 可 以 使 用 联想 存储 器 来 实现 ， 如 图 12-10 [= 
所 示 。 因 为 没有 被 映射 的 页 不 出 现在 联想 存储 器 中 ， 因 此 表 中 
只 有 那些 分 配 了 页 帧 的 进程 页 的 相应 条 目 。 如 果 一 个 页 没有 出 0 
现在 联想 存 情 器 中 ， 那 么 访问 该 页 将 会 失败 并 引起 一 个 缺 页 中 2 
断 〈 在 页 式 系统 中 称 为 缺 页 错 )。 因 为 使 用 页 表 的 系统 中 也 使 7 7 ] 
用 传统 的 存储 管理 技术 ， 所 以 缺 页 错 会 引起 存储 管理 器 去 加 载 z 7 
所 缺 的 页 。 ; 

为 了 避免 在 每 次 上 下 文 切换 时 都 不 得 不 保存 联想 存储 器 的 图 12-10 联想 存储 器 页 表 
内 容 (例如 ， 一 个 进程 可 以 只 使 用 联想 存储 器 的 一 部 分 )， 这 be 
里 所 说 的 杠 架 必须 要 修改 。 联 想 存 依 器 为 主 存 中 的 每 个 页 帧 包 ee en nme 
含 一 个 条 目 〈 而 不 包含 分 配给 一 个 进程 的 页 帧 )。 接 下 来 ， 键 于 2 区 条 目 ， 则 联 退 存 让 中 最 后 人 引发 
域 被 扩展 为 包括 进程 控制 块 中 的 一 些 信息 ， 因 此 只 要 在 键 域 上 个 中 煌 。 
产生 匹配 ， 即 可 定位 一 个 特定 进程 虚拟 地 址 空间 的 特定 页 。 不 
幸 的 是 ， 主 存 容量 的 增长 速率 比 联想 存储 器 的 性 价 比 增长 速率 快 得 多 ， 因 而 使 用 这 种 技术 虽然 快速 有 效 ， 
但 成 本 昂贵 。 

在 当代 的 机 器 中 ， 另 一 种 方法 仍然 被 广泛 应 用 。 系统 中 包括 一 种 称 为 转换 后 援 缓冲 (translation-looka- 
side buffer, TLB) 的 特殊 高 速 缓存 ， 它 采取 硬件 地 址 转换 技术 。 全 部 的 页 表 被 保存 在 主 存 中 ， 当 -一 个 页 第 
一 次 被 传送 到 某 个 页 帧 中 ， 该 映射 从 主 存 中 的 页 表 被 读 取 到 TLB 中 ， 那 么 TLB 的 条 目 中 就 包含 有 相应 的 
页 号 、 页 帧 的 物理 地 址 以 及 各 个 保护 位 。 在 随后 对 页 的 访问 中 ， 映 射 条 目 会 从 TLB 中 读 取 而 不 需要 再 从 
主 存 中 读 取 。Hennessey 和 Patterson [1990] 中 提供 了 有 关联 想 存储 器 和 TLB 的 更 多 详细 描述 。 
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12.4 静态 页 面 调度 算法 


有 两 种 基本 类 型 的 页 式 算法 ; 静态 分 配 和 动态 分 配 。 本 节 集中 于 介绍 静态 算法 ， 下 一 节 中 讨论 动态 算 
法 。 在 使 用 静态 页 式 算法 时 ， 在 一 个 进程 被 创建 时 分 配给 进程 固定 的 页 帧 数目 。 在 动态 页 式 算法 中 ( 见 
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12.5 节 )， 进 程 被 分 配 的 页 帧 数 随 着 进程 的 执行 而 改变 。 在 这 两 种 形式 的 分 配 算法 中 ， 页 式 策略 规定 了 虚 
拟 存储 系统 如 何 加 载 或 印 载 这 些 页 帧 。 在 定义 任 一 种 页 式 算法 时 ， 有 三 个 基本 的 原则 : 

图 取 策略 决定 什么 时 候 一 个 页 应 该 被 加 载 到 主 存 中 。 

E 蔡 换 策略 确定 如 果 所 有 的 页 帧 都 满 了 ， 哪 一 个 页 应 该 从 主 存 中 移出 。 

B 放置 策略 确定 取 到 的 页 应 该 被 加 载 到 主 存 中 的 什么 位 置 。 , 

由 于 静态 页 面 调度 算法 中 ， 分 配给 进程 的 页 帧 数目 是 固定 的 。 假 定 每 个 页 帧 包含 了 一 个 页 (这 是 除了 
系统 开始 执行 时 的 一 般 情 况 )， 当 页 从 主 存 中 移出 时 ， 由 替换 策略 选择 此 页 移出 ， 这 样 包含 这 页 的 页 帧 就 
为 空 了 。 在 静态 页 帧 分 配 算法 中 ， 放 置 策 略 是 简单 的 ， 新 页 会 被 加 载 进 刚刚 空 出 的 页 帧 中 ， 所 有 的 静态 页 
式 调 度 算法 都 使 用 这 种 简单 的 放置 策略 。 而 取 策略 和 替换 策略 在 静态 页 面 调度 算法 之 间 是 不 同 的 。 只 有 在 
动态 页 面 调度 算法 中 放置 策略 才 有 意义 。 

为 了 描述 准确 ， 我 们 使 用 另 一 种 简单 的 数学 模型 ， 来 考虑 各 种 策略 的 差别 。 与 前 面 的 假设 一 样 ，N 是 
虚拟 地 址 空间 中 的 一 个 页 面 集合 ， 页 访问 流 R 是 进程 执行 期 间 ， 访 问 N 中 的 页 所 形成 的 一 个 页 号 序列 ， 

R = ri 725 735 e.. Tignes Cr; E N) ' 
在 进程 的 执行 期 间 会 访问 这 些 页 。 例 如 , 假定 N= 10, 1, 2, 3, 4, 51, RE, IEW 
R = 2,0,3,4,3,2,0,1,1,3,... 
换 句 话说 ， 页 访问 流 就 是 进程 执行 时 所 访问 的 页 号 列表 。 

进程 的 虚拟 时 间 是 每 次 进程 进行 存储 器 访问 的 时 间 。 因 此 ， 我 们 可 以 使 用 页 访问 流 元 素 的 索引 来 表示 
进程 的 虚拟 时 间 。 例 如 ， 如 果 R 是 某 个 进程 的 页 访问 流 ， 第 i 个 存储 访问 是 页 7， 那 么 > (列表 中 的 第 i 
个 元 素 ) 将 是 7。 

假定 进程 被 分 配 了 m SHO 〈 被 进程 中 的 所 有 线程 共用 )， 引 用 加 载 到 这 m 个 页 帧 中 的 页 的 标识 也 
是 十 分 有 用 的 。 在 集合 表示 中 ， 我们 称 在 虚拟 时 刻 上 加载 到 mm 个 页 帧 中 的 页 (也 称 为 存储 状态 ) 为 

Si(m)= | da,» dias diz, +, dim! 

当 一 个 进程 开始 执行 时 ， 主 存 中 并 没有 加 载 进程 的 任何 页 ， 所 以 在 时 刻 0，zm 个 页 帧 的 初始 存储 状态 
为 So (m) =$. 如 果 第 一 个 存储 访问 为 页 2 的 位 置 ， 则 Si(m) = 121; 如 果 第 二 次 存储 器 访问 是 页 0 (m 
>1), W $2(m)= 10,2| 等 。 假定 mx =4， 对 于 上 面 给 定 的 例子 访问 流 ，S;(4) = 10,2,3,4|。 然 而 ， 为 了 
确定 Sio(4) 的 内 容 ， 我 们 需要 知道 页 式 算法 的 取 策略 和 替换 策略 ， 因 为 当 页 1 被 加 载 时 ，0、2、3 或 4 中 
的 某 一 个 必须 要 被 替换 。 

我 们 来 考虑 一 下 当 页 被 装 入 和 移出 时 ， 存 储 状 态 是 如 何 变化 的 。 在 任意 给 定 的 虚拟 时 刻 t, RIER 
X, 来 表示 存储 管理 器 决定 加 载 到 主 存 中 的 页 集合 。 如 果 存 储 管理 器 在 时 刻 上 加 载 页 r. M r.€ X,。 同 样 
地 ,我 们 称 在 虚拟 时 刻 上， 存储 管理 器 决定 替换 的 页 集合 为 Y,。 例 如 ， 如 果 页 式 策略 决定 在 时 刻 t HE y 
移出 ， 则 yR FY,- 

假设 进程 的 最 初 i 个 访问 流 为 R= ri, rs,r3,…，r:， 我 们 来 描述 如 何 确定 将 页 加 载 到 m 个 页 帧 中 。 
可 以 根据 S,_1(m) 来 确定 S,(m): l 

S (m) = S,-1 (m) U X,- Y, 
RAUL, “在 处 理 最 初 的 t 个 访问 后 ， 加 载 到 m 个 页 帧 中 的 页 集合 如 下 确定 : 修改 在 时 刻 : -1 载 人 的 
页 集合 ， 即 加 上 在 虚拟 时 刻 上 所 取 的 页 集合 (X,)， 然 后 减 去 在 虚拟 时 刻 £ 替换 的 页 集合 (Y,)。” 我 们 使 
用 So(m) 来 计算 Sim), EAS (m) KHA S，(m)， 依 此 类 推 。 对 于 进程 中 的 线程 的 首次 存储 访问 
(t=1), 
Si(m)= So(m) Ut{ri}l -$=$U try] -$= irto 


12.4.1 取 策 略 


取 策略 确定 什么 时 候 将 一 个 页 带 入 主 存 中 。 页 面 调度 机 制 通 常 不 能 预先 知道 在 机 器 上 执行 的 程序 的 页 
访问 流 情况 ， 因 此 要 构造 一 个 使 用 取 策 略 的 页 面 调 度 机 制 。 要 使 那些 页 在 被 访问 之 前 就 可 以 取 到 主 存 中 是 
非常 困难 的 ， 痊 代 的 策略 是 ， 在 大 多 数 通 用 的 页 面 调度 机 制 中 采用 了 一 种 按 需 取 页 策略 ， 只 有 在 当 进 程 访 
问 一 个 页 时 才 被 加 载 到 主 存 〈 即 当 页 访问 流 请 求 该 页 时 )。 换 句 话 说， 在 请 求 调 页 过 程 中 ,在 虚拟 时 刻 ; 
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当 页 ,出 现在 访问 流 时 ， 会 出 现下 列 情 形 之 一 ; 
m 如果 在 虚拟 时 刻 ;一 1 页 x, 被 加 载 ， 那 么 主 存 中 不 会 有 什么 变化 。 
如 果 在 虚拟 时 刻 : -1 页 x, 没有 被 加 载 ， 但 分 配给 进程 的 页 帧 有 空 的 ， 那么 所 缺 的 页 就 会 被 放置 到 
空闲 页 帧 中 (X = {ri!)。 
BOR MUNA 1: -1 页 r, 没 有 被 加 载 ， 并 且 分 配给 进程 的 页 帜 没有 空闲 的 ， 那么 加 载 到 某 个 页 帧 
中 的 页 y 的 内 容 就 会 被 页 r, 所 替换 (通常 情况 下 ， 在 t 时 刻 主 存 的 状态 表示 为 S,(m)， 被 蔡 换 页 集 
合 表示 为 Y,= Iyl) l 
在 请 求 分 页 的 静态 页 帧 分 配 算法 中 ， 整 个 策略 的 唯一 变化 是 蔡 换 算法 。 当 一 个 进程 开始 运行 时 ， 它 请 
求 固定 的 页 帧 数目 ， 并 在 它 的 整个 生命 期 间 都 不 改变 。 仅 当 访 问 的 页 没有 被 加 载 到 主 存 中 时 才 取 页 (BIE 
时 刻 :， 页 r, 并 不 在 S,-1(m ))。 因 为 取 策 略 和 放置 策略 都 已 经 建立 好 了 ， 因 而 静态 请 求 调 页 策略 能 够 通 
过 详细 说 明 它 的 替换 策略 来 描述 。 


12.4.2 请 求 调 页 算法 

给 定 一 个 页 访问 流 : 

R= ris r23, Tis 
设 当 物理 地 址 空间 处 于 状态 S,-1(m) 时 ,并 且 进 程 访问 页 ~ 时 ,yw 来 指明 在 假定 的 请 求 调 页 算法 中 被 蔡 换 的 
页 。 假 设 分 配给 进程 的 om 个 页 帧 都 装 满 了 有 效 页 面 ,但 ~ 不 在 S,_:(m) 中 ,那么 上 时刻 的 主 存 状 态 是 根据 ; 
一 1 时 刻 的 主 存 状 态 ， 由 下 列 公式 定义 : 
Sm) = Sm) U {irn} - {yl 

因此 ， 通 过 指定 y,， 我 们 将 唯一 地 标识 蔡 换 策略 ， 因 为 S,_1(m) 和 irn) 是 在 缺 页 错误 发 生 时 被 定义 
的 。 下 面 我 们 来 考虑 一 些 蔡 换 算法 。 

随机 替换 

在 随机 替换 策略 中 ， 被 蔡 换 的 页 是 随机 选择 的 ， 即 存储 管理 器 以 概率 1/m ， 随 机 选择 任 一 已 加 载 的 页 
y， 然 后 令 赫 换 页 y, = y。 因 为 该 策略 要 求 以 相等 的 概率 ， 在 任 一 页 帧 中 选择 要 替换 的 页 ， 所 以 当选 择 替 
换 页 帧 时 ， 不 需要 知道 访问 流 信息 (或 局 部 性 信息 )。 

通常 情况 下 ， 随 机 蔡 换 的 性 能 不 是 很 好 。 对 大 多 数 的 访问 流 来 说 ， 它 会 比 本 节 中 讨论 的 其 他 算法 引起 
更 多 的 缺 页 错 。 自 从 20 世纪 60 年 代 最 早 研究 随机 替换 策略 以 后 ， 系 统 设计 者 们 就 意识 到 了 ， 几 种 其 他 的 
算法 会 产生 更 少 的 缺 页 错 。 

假设 一 个 进程 分 配 有 4 STW (HRT 5 使 用 页 帧 0， 页 7 使 用 页 巾 1， 页 6 使 用 页 帧 2， 以 及 页 9 
使 用 页 帧 3， 即 S，(4) = {5,，7，6，91)， 且 进程 处 于 只 使 用 两 个 页 (如 页 7 和 页 9) 的 阶段 。 那 么 随机 
替换 策略 可 以 以 相等 的 概率 从 页 帧 0、1、2 或 3 中 选择 一 个 来 进行 替换 ， 而 不 管 应 该 选择 页 帧 0 (页 5) 
或 2 (页 6) 以 避免 印 载 频繁 使 用 页 。 

Belady 最 优 算 法 

该 替换 策略 又 从 随机 替换 走向 了 另 一 个 极端 它 需要 对 页 访问 流 “ 完 全 了 解 *。 因 而 Belady RRR RA 
法 总 是 能 从 主 存 中 选 出 最 优 的 页 将 其 移出 。 设 在 上 时 刻 页 ~ 的 前 方 距离 forward distance) XFWD, (r), 它 
是 指 页 访问 流 中 的 同一 页 从 当前 点 到 下 一 个 要 访问 点 的 距离 。 前 方 距离 总 大 于 0， 并 且 如 果 一 个 页 从 不 被 访 
间 ， 那 么 它 就 是 无 限 大 。 在 最 优 算法 中 ， 被 替换 的 页 是 指 有 最 大 前 方 距离 的 页 : 

Y= maxzcs 1(m) FWD,(z) 

因为 在 + 时 刻 会 有 不 止 一 个 的 页 被 加 载 ， 也 可 能 不 止 一 个 页 再 也 不 会 出 现在 访问 流 中 一 一 即 其 中 可 能 
有 不 止 一 个 页 具有 最 大 前 方 距离 。 在 这 种 情形 中 ，Belady 最 优 算法 会 从 具有 最 大 前 方 距离 的 页 中 随机 地 选 
择 一 个 进行 替换 。 

最 优 算法 只 能 在 预先 完全 知道 页 访问 流 的 情况 下 才能 实现 。 由 于 系统 不 可 能 预先 知道 ， 因 而 该 算法 通 
常 不 能 实现 。 相 反 ， 可 以 把 它 作为 最 优 性 能 理论 算法 ， 与 可 实现 算法 的 性 能 进行 比较 。 

在 少数 特殊 的 情形 中 (比如 天 气 预 报 的 程序 )， 才 可 能 足够 值得 对 进程 的 页 访问 状态 仔细 分 析 。 虽 然 
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它 通常 并 不 能 准确 地 预测 页 访问 流 ， 但 有 时 可 以 在 大 概率 情况 下 ， 正 确 预测 下 一 页 。 例 如 ， 一 般 在 一 次 循 
环 结束 时 分 支 指令 总 是 会 回 到 循环 的 开始 位 置 ， 而 不 是 结束 循环 。 这 种 预测 是 基于 对 源 代 码 的 静态 分 析 ， 
或 者 对 程序 动态 运行 状态 的 观察 。 虽 然 进 程 是 瞬间 工作 的 ， 并 且 只 有 对 那些 长 期 运行 的 和 经 常 执行 的 程序 
才 值 得 分 析 ， 但 这 种 分 析 结 合 程序 中 的 “线索 ”"， 可 以 产生 足够 的 蔡 换 信息 。 编 译 器 和 页 面 调度 系统 可 以 
在 设计 中 使 用 这 些 线 索 来 预测 页 访问 流 的 未 来 行为 。 
作为 Belady 最 优 算法 的 例子 ,假设 m =3 个 页 帧 ， 且 有 :; 
R=0123012301234567 

表 12-1 中 的 每 一 行 表 示 一 个 页 帧 被 不 同 页 面 占用 的 情况 ， 每 一 列表 示 访 问 流 的 每 次 访问 情况 ; PB i 行 
与 第 j 列 处 的 表 项 表示 7x; 被 访问 过 时 加 载 到 页 帧 ; 中 的 页 ; 列 标题 项 表示 页 访问 流 中 的 各 个 页 ; MRAM 
以 * 来 标记 ， 那 么 就 表示 该 页 是 作为 缺 页 错 被 加 载 进 来 的 。 表 12-1 中 表现 了 最 优 算法 的 运行 状态 ， 其 中 
发 生 了 10 次 缺 页 。 


表 12-1 Belady 最 优 算 法 运行 状态 





页 帧 0 1 2 3 0 1 2 3 0 1 2 3 4 5 6 7 
0 0 0 o 0 © 0 0 0 0 1 1 4 4 4 7 
1 1 1 1 1 1 2 2 2 2 2 2 2 5 5 5 
2 2” 3 3 3 3 3 3 3 3 3 3 3 6 6 
最 近 最 少 使 用 


最 近 最 少 使 用 (LRU) 算法 设计 中 利用 了 程序 的 空间 局 部 性 。 在 编写 的 程序 中 通常 包含 有 循环 ， 它 会 
重复 执行 主要 代码 行 ， 特 殊 情 况 下 的 代码 很 少 被 执行 。 这 意味 着 在 地 址 空间 的 相应 代码 部 分 中 ， 控 制 部 件 
会 重复 访问 那些 包含 循环 的 页 ， 包 含 该 部 分 代码 的 页 集合 称 为 进程 的 程序 局 部 集 (program locality)。 如 果 
执行 一 个 循环 或 多 个 循环 的 代码 被 存储 在 少数 几 个 页 中 ， 那 么 程序 就 有 一 个 小 的 程序 局 部 集 。 在 很 多 程序 
中 ， 有 类 似 的 数据 局 部 集 或 栈 局 部 集 ， 其 中 在 执行 程序 时 ， 进 程 往往 会 重复 读 写 一 个 数据 子 集中 的 数据 。 
例如 ， 解 决 线性 方程 系统 的 程序 中 ， 往 往 会 重复 访问 包含 方程 系统 系数 矩阵 的 地 址 空间 。 在 大 多 数 程序 都 
有 相对 小 程序 局 部 集 的 同时 ， 有 几 种 类 型 的 程序 并 没有 特别 有 用 的 数据 局 部 集 (例如 ， 一 个 事务 处 理 系 统 
中 通常 有 “ 差 的 数据 局 部 性 ”， 意 味 着 与 随后 的 事务 数据 之 间 没 有 什么 关系 )。 

LRU 替换 算法 设计 中 ， 通 过 假定 一 个 最 近 被 访问 过 的 页 ， 很 可 能 不 久 又 会 被 访问 ， 这 明显 地 利用 了 
局 部 集 的 优点 。 设 在 t 时 刻 页 > 的 后 方 距离 (backward distance) 为 BKWD,(r)， 它 是 指 页 访问 流 中 的 同一 
页 从 当前 点 到 以 前 一 个 访问 点 的 距离 。 后 方 距离 总 大 于 0， 并且 如 果 一 个 页 以 前 没有 被 访问 过 ， 那 么 它 就 
是 无 限 大 。 在 LRU 算法 中 ， 被 替换 的 页 是 指 有 最 大 后 方 距 离 的 页 : 

Ma = InaxzEcS， (m) (BKWD, (x )) 

由 于 有 局 部 集 的 假设 ， 所 以 对 任 一 页 来 说 ， 后 方 距离 比 前 方 距离 更 好 计算 。 如 果 不 止 一 个 页 具有 最 大 
后 方 距离 ，LRU 算法 会 从 具有 最 大 后 方 距离 的 页 中 ， 随 机 地 选择 一 个 进行 替换 。 

假设 m =3 个 页 帧 ， 且 R=0123012301234567; 那么 使 用 LRU 算法 的 运行 状态 如 表 12-2 所 
示 ， 其 中 发 生 了 16 KR. 


表 12-2 LRU 算法 运行 状态 








Hm 0 1 2 3 0 1 2 3 0 1 2 3 4 5 6 7 
0 o 0 0 3* 3 3 2* 2 1* 1 1 4* 4 4 7* 
1 1* 1 1 0* 0 0 3 3 3 2 2 2 5* 5 5 
2 2* 2 2 1 1 1 0 0 0 3* 3 3 6" 6 
最 小 使 用 频率 


最 小 使 用 频率 (LFU) 替换 算法 中 ， 如 果 一 个 页 过 去 没有 被 经 常 使 用 ， 那 么 就 会 被 选中 替换 。 设 在 页 
访问 流 中 从 7 BU ~ -1 对 7x, 的 访问 次 数 为 FREQ,(7,)， 那 么 被 替换 的 页 为 : 
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Mu minzes (m) (FREQ; (x)) 

可 能 不 止 一 个 页 满足 蔡 换 的 标准 ， 那 么 可 以 选择 任 一 个 满足 标准 的 页 进行 替换 。 

LFU 算法 往往 对 局 部 集 的 改变 会 反应 较 慢 。 如 果 程 序 改 变 了 当前 正在 使 用 的 页 集合 ， 而 频率 计数 往 
往 会 引起 新 局 部 集中 的 页 被 替换 ， 尽 管 它们 会 马上 被 使 用 。 随 着 进程 的 前 进 ， 这 种 “惯性 ”最 终 会 被 克 
服 ， 并 且 该 策略 会 选择 合适 的 页 进行 替换 。 

使 用 LFU 的 另 一 个 问题 是 ， 它 使 用 从 页 访问 流 开 始 进行 统计 的 频率 计数 。 例 如 ， 初 始 化 代码 会 对 进 
程 进入 到 代码 主要 部 分 运行 后 的 替换 策略 ， 产 生 很 长 时 间 的 影响 。 在 一 个 更 为 受 欢迎 的 LFU 变种 中 ,使 
用 的 频率 计数 是 从 一 个 页 上 次 被 加 载 后 开始 统计 的 ， 而 不 是 从 页 访问 流 的 开始 ， 每 次 一 个 页 被 加 载 后 就 重 
置 频率 计数 ， 而 不 只 是 随 着 程序 的 执行 永远 增长 。 这 个 策略 在 程序 改变 局 部 集 时 仍然 往往 会 慢 慢 地 加 载 
页 。 但 在 过 去 较 远 阶段 的 运行 状态 效果 不 会 对 当前 运行 状态 产生 影响 。 

假设 我 们 在 具有 相同 使 用 频率 的 页 中 ， 随 机 选择 被 替换 的 页 ， 那 么 使 用 前 面 例子 中 的 数据 条 件 ， 采 用 
LFU 算法 的 访问 流 结果 如 表 12-3 所 示 ， 其 中 发 生 了 12 个 缺 页 错 。 


表 12-3 LFU 算法 运行 状态 








H wm 0 1 2 3 0 1 2 3 0 1 2 3 4 5 6 7 
0 0* 0 0 0 0 0 0 0 0 0 0 3* 3 3 3 3 

* 1 1 1 1 1 3” 3 1” 1 1 1 1 1 1 
2 2 3” 3 3 2” 2 2 2 2 2 4* 5” 6 7* 





先进 先 出 
AMA (FIFO) 替换 算法 蔡 换 那 些 在 主 存 中 待 的 时 间 最 长 的 页 。 设 AGE,(7) 为 当前 时 间 减 去 S;(m) 
中 的 页 r 自 上 次 被 加 载 以 来 的 时 间 ， 那 么 被 替换 的 页 为 : 
= max,¢s _,(m)(AGE,(x)) 
FIFO 专注 于 一 个 页 已 经 在 主 存 中 的 时 间 长 度 ， 而 不 是 页 被 使 用 的 次 数 。FIFO 的 主要 优点 是 实现 简单 ， 
但 它 不 是 特别 适合 大 多 数 程序 的 运行 状态 (然而 它 完全 独立 于 程序 局 部 性 原则 ) ， 所 以 没有 系统 使 用 它 。 
如 表 12-4 所 示 的 例子 中 ， 发 生 了 16 次 缺 页 错 。 


表 12-4 FIFO 算法 运行 状态 














页 帧 0 1 2 3 0 1 2 3 0 1 2 3 4 5 6 7 
0 0” 0 0 “3* 3 3 2* 2 2 1 1 1 4 4 4 7* 
1 1* 1 1 0* 0 0 3 3 3 2" 2 2 5* 5 5 
2 2* 2 2 1* 1 1 0 0 0 3 3 3 6 6 
12.4.3 RBI 


某 些 请 求 算法 可 以 比 其 他 算法 有 更 “好 的 行为 "。 例 如 ， 考 虑 下 面 的 页 访问 流 : 
R=0,1,2,3 ,0,1, 4,0,1, 2, 3,4 
当 它 通 过 FIFO 算法 进行 ， 同 时 m=3 (参见 表 12-5)， 发 生 了 9 个 缺 页 错 ， 每 个 以 * 进行 标识 。 现 在 假设 
我 们 增加 物理 地 址 空间 使 m = 4 个 页 巅 ， 并 且 对 相同 的 页 访问 流 使 用 同一 种 算法 (参见 表 12-6)。 


表 12-5 使 用 3 个 页 帧 的 FIFO 算法 





页 M 0 1 2 3 0 1 4 0 1 2 3 4 
0 0 0 3* 3 3 4* 4 4 4 4 4 
1 1" 1 1 0° 0 . 0 0 0 2" 2 2 
2 2° 2 2 1* 1 1 1 1 3* 3 
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312-6 (4 SRA FIFO 算法 


页 wi 0 1 2 3 0 1 4 0 1 2 3 4 














0 0* 0 0 0 0 0 4* 4 4 4 3” 3 
1 1* 1 1 1 1 1 0* 0 0 0 4* 
2 2* 2 2 2 2 2 1* 1 1 1 


3 3* 3 3 3 3 3 2" 2 2 


使 用 4 个 页 帧 的 分 配 中 ， 有 10 个 缺 页 错 ， 比 使 用 3 个 页 帧 的 分 配 多 1 个， 尽管 进程 可 以 多 使 用 一 个 页 
i, (BARE TRA ARO. IRA Beady 奇异 (Belady’s anomaly) 的 一 个 例子 。 当 分 配给 进程 的 主 存 数目 
增长 时 ， 页 面 调度 算法 的 性 能 会 更 差 。 我 们 自然 会 关心 容易 产生 Beady 奇异 的 替换 算法 ， 因 为 这 种 算法 中 不 
能 通过 增加 分 配给 进程 的 主 存 数目 来 提高 性 能 。 那 么 容易 产生 Beady 奇异 的 替换 算法 有 什么 特征 呢 ? 

问题 的 出 现 是 因为 加 载 到 3 个 页 帧 中 的 页 集合 ， 不 必要 加 载 到 4 个 页 帧 中 。 例 如 ， 当 页 4 被 第 一 次 访问 
时 ,在 m=3 的 例子 中 页 0 留 在 了 主 存 中 ， 而 在 mx =4 的 例子 中 页 0 被 选中 替换 ; 一 旦 发 生 这 个 替换 ， 页 访 
间 流 剩余 部 分 的 运行 状态 就 有 了 很 大 的 变化 。 有 一 组 页 面 调度 算法 ， 其 中 使 用 m 个 页 帧 加 载 的 页 集合 ， 总 
是 使 用 m +1 个 页 帧 加 载 的 页 集合 的 一 个 子 集 ( 这 种 特征 称 为 包含 特征 )， 这 些 算法 也 称 为 栈 算法 (stack al- 
gorithm)。 满 足 包 含 特征 的 算法 没有 Beady 奇异 【Nutt，1992]。 在 解释 奇异 现象 的 例子 中 ， 注 意 到 在 使 用 
m 二 3 个 页 巾 的 情况 中 ， 当 页 4 被 访问 后 (作为 第 7 次 访问 ), 则 Si;(3) = 14, 0, 1h; 而 当 m=4 aT, 
SJ(4)= 14, 1, 2, 3} At FIFO 不 满足 包含 特征 ， 并 且 不 是 栈 算法 ; 而 LRU M LFU 是 栈 算法 。 

栈 算法 表现 的 运行 状态 对 设计 者 来 说 是 很 重要 的 。 一 个 算法 需要 保证 给 进程 分 配 更 多 的 资源 时 ， 而 性 
能 不 会 降低 一 一 即 算法 将 有 “和 良 运 行 状态 ”。 栈 算法 中 主 存 的 使 用 与 缺 页 错 数 目 之 间 的 相关 性 ， 并 不 在 其 
他 算法 中 出 现 。 栈 算法 也 比 非 栈 算法 便于 分 析 。 例 如 ， 栈 算法 中 可 以 选 定 一 个 访问 流 来 计算 出 取 页 的 开 
销 ， 因 为 它 通 过 分 析 主 存 状 态 而 预测 缺 页 错 的 数目 是 可 能 的 。 而 且 栈 算法 中 主 存 状 态 也 可 用 于 预测 通过 增 
加 分 配给 进程 的 主 存 所 获得 的 性 能 提高 的 情况 。 而 这 种 性 能 提高 在 其 他 算法 中 是 不 可 能 达到 的 。 


12.4.4 实现 LRU 


随 着 时 间 的 推移 ，LRU 已 经 成 为 一 种 被 广泛 采用 的 静态 替换 算法 ， 因 为 它 可 以 合理 地 预测 程序 运行 
状态 ， 并 且 针对 各 种 不 同 的 页 访问 流 都 有 好 的 性 能 表现 。 然 而 ， 实 现 LRU 必须 要 保存 每 个 页 帧 使 用 的 计 
数 ， 这 个 计数 必须 要 求 页 表 结合 一 个 域 来 反映 上 次 访问 的 时 间 ， 这 里 的 时 间 是 指 进程 执行 的 虚拟 时 间 。 实 
现 这 个 记录 的 开销 是 很 大 的， 因为 它 产生 了 对 页 表 的 写 操 作 以 及 要 求 维护 虚拟 时 间 的 额外 开销 ， 而 且 替 换 
算法 也 必须 查找 整个 页 表 ， 找 到 具有 最 大 后 方 时 间 的 被 加 载 页 。 由 硬件 来 提供 实现 LRU 的 准确 运行 状态 
的 全 部 信息 是 很 困难 的 ; 然而 使 用 相对 简单 的 硬件 ， 来 实现 LRU 算法 的 近似 运行 状态 是 可 能 的 。 

假设 页 表 在 每 个 页 表 项 中 结合 一 个 访问 位 (reference bit) ， 并 假定 每 个 页 访问 位 要 定期 置 0。 每 次 在 相 
应 的 页 被 读 取 或 写 人 时 ， 地 址 转换 硬件 将 访问 位 置 1 (这 要 比 用 一 个 整 型 值 更 新 一 个 域 速 度 快 )。 现 在 ， 只 
要 有 缺 页 错 发 生 ， 系 统 就 可 以 很 容易 地 找 出 自 上 次 所 有 的 访问 位 被 清 0 后 ， 哪 个 页 被 访问 过 。 全 可 以 通过 
检查 它们 的 访问 位 来 实现 ， 自 从 上 次 所 有 的 访问 位 被 清 0 后 ， 凡 是 页 的 访问 位 置 1 的 都 是 访问 过 的 ， 而 仍 
然 为 0 的 就 是 没有 访问 过 的 页 。 最 近 最 少 访问 的 页 就 是 那些 访问 位 还 为 0 的 页 ， 因 而 最 近 最 少 使 用 算法 可 
以 从 中 任 选 一 个 进行 替换 ， 然 后 所 有 的 访问 位 又 都 被 清 0。 

那么 我 们 如 何 扩展 访问 位 的 内 涵 ， 来 保存 有 关 最 近 使 用 过 页 的 更 多 信息 呢 ? 假设 页 表 中 每 个 表 项 中 的 
访问 位 用 一 个 移 位 寄存 器 来 代替 ， 其 中 最 高 有 意义 的 位 作为 访问 位 使 用 ， 即 当 相 应 的 页 被 访问 时 ， 该 位 就 
要 被 置 位 。 现 在 假设 寄存 器 的 内 容 会 定期 地 向 右 移 位 ， 当 一 个 缺 页 错 发 生 时 ， 移 位 寄存 器 中 就 包含 了 有 关 
当前 页 如 何 被 访问 的 更 多 信息 ， 因 而 就 可 以 更 好 地 实现 一 个 近似 的 LRU (参见 本 章 末 的 习题 14) ， 其 中 历 
史 信息 的 准确 性 取决 于 移 位 操作 间隔 的 大 小 和 移 位 寄存 器 位 数 的 多 少 。 
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表 12-7 近似 的 LRU 算法 
a) 访问 位 清 0 b) 一 些 访问 位 置 1 
页 访 问 位 页 i 访 问 位 页 W 
0 0 103 T 
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例如 ， 在 表 12-7 的 a) 部 分 中 的 页 表 ， 说 明了 访问 位 都 被 清 0 时 的 情形 。 主 存 访问 次 序 按 R=… 4144 
28 5 14 4 29 6 … 进 行 ， 直 到 访问 页 6 引起 了 缺 页 错 。 同 一 个 表 的 b) 部 分 中 的 页 表 ， 标 明 自 从 上 次 访问 位 被 
清 0 后 ,页 4、S$、14、28 以 及 29 都 已 经 被 访问 过 。 当 人 缺 页 错 发 生 时 ， 页 0、9 或 19 中 的 任 一 个 就 是 最 近 最 少 
访问 的 页 ， 因 而 会 随机 地 从 它们 中 选择 一 个 进行 替换 。 如 果 自 从 上 次 访问 位 被 清 0 后 ， 所 有 的 页 都 访问 过 ， 
那么 选择 替换 页 的 过 程 也 是 完全 随机 的 。 假 定 这 后 一 种 情形 不 会 发 生 ， 这 种 方法 就 是 一 种 便宜 的 近似 LRU. 

缺 页 错开 销 的 一 个 重要 部 分 就 是 要 把 一 个 页 从 主 存 中 写 人 辅 存 ， 因 而 页 表 中 也 可 结合 一 个 脏 位 (dirty bit), 
在 一 个 页 被 加 载 时 清 0， 并 上 且 在 有 写 页 操作 时 置 位 。 如 果 一 个 页 被 选择 进行 替换 ， 并 且 它 的 脏 位 是 0， 即 自从 该 
页 加 载 以 来 并 没有 被 写 过 ， 这 样 就 不 需要 写 回 到 辅 存 中 ， 因 为 页 帧 中 的 映像 与 辅 存 中 的 映像 是 相同 的 。 


12.4.5 页 面 调度 性 能 


由 于 进程 /线程 在 发 生 缺 页 错时 将 被 延迟 ， 因 而 不 能 期 望 它 在 一 个 页 面 调 度 系统 中 的 执行 时 间 ， 与 在 
一 个 能 够 分 配 足 够 的 主 存 来 加 载 整个 地 址 空间 的 系统 中 所 用 时 间 相 同 。 页 面 调度 系统 以 进程 执行 更 长 的 时 
间 为 代价 来 减少 进程 所 使 用 的 主 存 数 ， 页 面 调度 的 价值 就 在 于 在 节省 主 存 数 与 增加 执行 进程 时 间 的 开销 之 
闻 做 出 有 利 的 权衡 。 例 如 ， 如 果 一 个 进程 减少 了 运行 所 需 主 存 数 的 一 半 ， 而 实际 执行 时 间 只 增长 了 10%, 
那么 就 认为 这 是 一 笔划 算 的 交易 。 由 于 权衡 中 有 主观 因素 的 成 分 ， 所 以 页 面 调度 算法 的 性 能 分 析 ， 通 常 需 
要 比较 不 同 存储 分 配 、 不 同 页 面 大 小 、 不 同 页 传送 速率 或 者 不 同 蔡 换 策略 情况 下 的 效果 。 

页 面 调度 的 主要 开销 是 进行 替换 所 花费 的 VON, Be I/O 操 作 要 比 主 存 访问 时 间 慢 几 个 数量 级 ， 
因而 在 缺 页 错 数 目 上 的 小 差别 ， 也 能 够 极 大 地 改变 一 个 进程 的 执行 时 间 。 本 节 中 所 给 出 的 简单 例子 ， 论 证 
了 进程 的 局 部 性 与 物理 地 址 空间 之 间 的 不 匹配 是 一 个 灾难 ， 因 为 它 会 每 执行 几 条 指令 就 引起 页 加 载 到 主 存 
中 ， 这 种 现象 称 为 村 动 (thrashing)， 这 会 从 本 质 上 增加 缺 页 错 的 数目 ， 因 而 会 使 进程 执行 时 间 增 加 几 个 数 
量 级 (取决 于 磁盘 VOR). 

每 个 缺 页 错 都 会 需要 相当 大 的 开销 ， 比 如 说 需要 R 个 单位 时 间 。 缺 页 错 处 理 时 间 都 会 加 到 总 的 执行 
时 间 。 如 果 进 程 的 访问 流 中 有 上 次 访问 并 且 有 了 次 缺 页 错 ， 则 总 的 执行 时 间 为 : 

Tee = t + fR 
在 所 有 执行 指令 中 均匀 分 配 页 替换 开销 ， 每 条 指令 的 平均 开销 数目 为 ; 
平均 开销 = Tee /t = (t+ fR)/t=14+ (f/2)R 
SARRAR, ARVN EKRAR ERKA MRK RBM), ARRERA 
就 会 被 全 部 执行 时 间 所 掩盖 ， 而 不 会 有 大 的 性 能 降低 。 随 着 它们 中 的 任 一 个 增长 ， 页 面 调度 就 会 变 得 没有 
效率 ， 因 为 缺 页 开销 时 间 占 了 整个 时 间 的 大 部 分 。 ， 

f/t 的 值 取决 于 分 配给 进程 的 主 存 数 目 、 页 访问 流 以 及 替换 算法 。R 的 值 取 决 于 很 多 因素 ， 包 括 辅 存 
的 特征 、 页 面 大 小 以 及 蔡 换 策略 的 开销 等 。 然 而 对 于 大 多 数 实 现 来 说 ， 主 存 与 辅 存 之 间 的 传输 速率 往往 是 
决定 R 的 主要 因素 ， 因 为 传送 通常 要 涉及 到 存储 设备 中 的 机 械 运动 ， 所 以 磁盘 传输 率 对 页 面 调度 系统 的 
性 能 来 说 非常 重要 。 有 时 甚至 会 为 此 而 配置 只 保存 可 执行 的 主 存 映 像 的 高 速 磁盘 。 

多 年 来 ， 在 研究 各 种 页 面 调 度 算法 和 实现 的 过 程 中 ， 已 获得 了 相当 多 的 经 验 数据 。 对 这 方面 的 研究 并 
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不 一 定 是 局 限于 性 能 ， 同 时 表现 了 各 种 进程 在 各 种 蔡 换 策略 中 性 能 的 特征 。 研 究 者 观察 到 对 于 所 有 页 访问 
流 和 所 有 算法 ， 典 型 的 抖动 会 发 生 在 分 配 的 主 存 小 于 虚拟 地 址 空间 一 半 的 情况 下 [Coffman and Denning, 
1973j。 反 过 来 ， 随 着 主 存 分 配 接近 虚拟 地 址 空间 ， 所 有 算法 的 性 能 会 收敛 于 Belady 最 优 算法 的 性 能 。 已 
经 得 出 这 样 的 结论 : 分 配 的 主 存 数目 至 少 与 替换 算法 一 样 重要 ， 系 统 不 给 进程 分 配 足 够 的 主 存 会 引起 极 大 
的 性 能 下 降 。 这 个 观察 结果 也 导致 了 采用 比 静 态 主 存 分 配 技 术 中 更 好 的 方式 来 实现 进程 对 主 存 的 需要 。 


12.5 动态 页 面 调度 算法 


前 面 所 考虑 的 页 面 调度 算 法 中 ， 都 假定 进程 开始 时 被 分 配 一 个 固定 的 主 存 数 目 ， 并 且 在 计算 期 间 这 个 
数目 不 能 改变 。 甚 至 如 果 进 程 在 到 达 某 个 阶段 ， 它 请 求 更 大 的 物理 地 址 空间 ， 或 者 它 的 主 存 请 求 减少 了 ， 
在 静态 算法 中 也 不 调整 分 配给 进程 的 主 存 数 。 

随 着 分 配 的 主 存 数 目的 不 同 ， 一 个 程序 的 执行 会 产生 不 同 的 缺 页 错误 率 。 对 于 那些 栈 算法 而 言 ， 无 论 
使 用 什么 特殊 的 算法 ， 随 着 主 存 数目 的 减少 ， 缺 页 错误 率 就 会 增长 。 不 同 的 页 面 调度 算法 使 用 某 个 特定 大 
小 的 主 存 ， 也 会 有 不 同 的 缺 页 错误 率 。 对 一 个 特定 程序 的 (页 ) 故障 率 的 图 表 分 析 表 明 : 通常 在 围绕 某 个 
点 m 有 一 个 小 的 区 域 ， 该 处 曲线 的 导数 变化 很 快 ( 这 有 时 称 为 驻 点 (hysteresis point))。 如 果 分 配给 进程 
的 主 存 数目 小 于 m, MAKES, 然而 分 配 的 主 存 超过 m 也 不 会 从 本 质 上 减少 进程 的 缺 页 错误 率 ， 
那么 这 个 值 m 就 是 给 定 蔡 换 算法 中 ， 分 配给 进程 主 存 数 且 的 理想 值 。 

对 这 个 现象 的 解释 就 是 进程 随 着 执行 而 改变 它 的 局 部 集 。 当 进程 的 局 部 集 改变 时 ， 不 但 页 面 改 变 了 ， 
而 且 局 部 集中 的 页 数目 可 能 改变 (参见 图 12-7)。 有 时 进程 只 需要 几 个 页 帧 来 保持 所 需要 的 页 ， 而 在 其 他 
时 间 内 它 可 能 需要 很 多 的 页 帧 。 可 以 证 明理 想 的 主 存 分 配 数 m 的 值 是 高 度 动态 变化 的 ， 取 决 于 进程 执行 
中 在 每 个 点 的 行为 。 因 而 ， 随 着 计算 阶段 的 改变 ， 局 部 集 也 会 改变 ， 然 后 是 分 配给 进程 的 页 帧 数目 应 该 被 
改变 。 动 态 页 面 调度 算法 会 随 着 它们 的 改变 ， 而 调整 主 存 分 配 来 匹配 进程 的 需要 。 驻 留 集 算法 是 第 一 个 有 
名 的 动态 页 面 调度 算法 ， 并 且 导 致 动态 页 面 调度 算法 被 用 于 现代 操作 系统 之 中 。 


12.5.1 驻 留 集 算法 


驻 留 集 算法 使 用 当前 的 主 存 请 求 来 确定 分 配给 进程 的 页 帧 数目 。 假 设 有 上 个 进程 在 共享 主 存 ， 设 在 虚 
拟 时 间 上 分 配给 进程 i 的 主 存 数目 为 m;(:)， 因 而 wm;(0) = 0， 并 且 在 上 时 刻 有 : 

现在 ， 如 果 我 们 用 xm;(1) 替 换 上 一 节 概 念 中 的 m, WAS Cm; (1) MBE p; 在 虚拟 时 刻 + 加 载 到 主 
存 中 的 页 集合 。 这 个 符号 使 用 起 来 有 一 些 不 方便 ， 并 且 t 元 余 出 现在 表达 式 中 ， 因 而 我 们 使 用 简化 的 形式 
S(zoi(t)) 来 表示 在 t 时刻 分 配给 进程 ; 的 页 集合 。 

假定 SCmi(0))=$ 在 上 > 0 时 刻 进程 i 的 主 存 状 态 能 够 通过 使 用 一 个 参数 岂 ， 由 在 上 -工时 刻 的 主 存 
状态 得 到 : 

.Sm(t)) = Sm(t-1))U X- Y, 

其 中 X, 是 在 zt 时 刻 放置 在 主 存 中 的 页 集合 ， 马 是 在 上 时 刻 从 主 存 中 移出 的 页 集合 (与 放置 的 页 集合 无 关 )。 
下 面 更 详细 地 说 明 一 下 ， 如 果 x, 在 1 -1 时刻 被 加 载 ， 那 么 它 还 保持 在 主 存 中 ; WE + er -1 时刻 没 有 被 
加 载 ， 那 么 XS irio WE 7x, 的 后 方 距离 大 于 或 等 于 一 个 常量 ww ( 即 BKWD,(y) 宇 w)， 页 y 就 被 独立 地 
印 载 。 在 这 个 算法 中 页 替换 和 页 放置 是 分 离 的 ， 参 数 w 是 访问 流 上 逻辑 窗口 的 大 小 ， 它 用 于 限定 使 用 一 
个 LRU 变种 算法 在 先前 访问 的 页 面 集合 。 由 于 X, 和 Y, 已 经 指定 ， 所 以 主 存 分 配 m;(z) 被 调整 到 分 配 确切 
数目 的 页 帧 使 之 包含 S(m;(1)) 中 的 页 面 。 


XAOf¥E Y,=O> m; (t) = m; (1—1) +1 (分 配 一 个 页 帧 ) 
B X, = 从 并 且 Y,=O>m; (t) = m; (t-1) 
B Xi 一 从 并 且 YO m; (t) = m; (t-1) -1 (释放 一 个 页 帧 ) 


作为 结果 的 S (m;(1)) 称 为 在 r 时 刻 进程 i 的 页 的 驻 留 集 (working set) ， 同 时 窗口 大 小 为 w (窗口 
大 小 w， 用 于 在 确定 要 淘汰 页 面 时 比较 后 方 距离 )。 注 意 驻 留 集 算法 与 使 用 静态 分 配 算法 的 LRU 方法 的 相 
似 之 处 : 都 依赖 于 后 方 距 离 的 计算 来 确定 页 替换 ， 但 驻 留 集 算法 同时 考虑 使 用 窗口 大 小 来 限定 后 方 距 离 。 
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图 12-11 中 说 明了 窗口 用 于 确定 驻 留 集 以 及 页 帧 分 配 的 方式 。 访 问 流 的 r, 
分 段 表现 了 当前 被 访问 的 页 ， 假 设 ,是 页 1， 并 且 驻 留 集 窗口 应 该 考虑 只 是 
最 近 w= 3 个 页 的 访问 (包括 当前 页 ) 一 页 1、0、1， 这 三 次 访问 只 使 用 R- .01210 1 2 
两 个 页 一 页 0 和 1。 因 而 窗口 大 小 w=3 的 驻 留 集 是 2， 意 味 着 如 果 进 程 被 
分 配 两 个 页 帧 ， 驻 留 集 能 够 被 加 载 到 主 存 中 。 一 一 

直观 上 ， 驻 留 集 相 应 于 进程 局 部 特性 的 页 面 集合 。 例 如 ， 如 果 一 个 进程 wows 
在 一 个 时 刻 只 使 用 3 个 页 进行 了 10 000 Ki, ASIEN =O EEROR EATA 
它 。 如 果 进 程 在 一 个 时 刻 使 用 20 个 页 进行 10 000 次 访问 ， 那 么 应 该 分 配给 它 
20 个 物理 页 帆 的 物理 地 址 空间 。 Sa HERE 

最 初 的 驻 留 集 理论 中 使 用 窗口 大 小 uw 来 估计 驻 贸 集 [Coffman and Dene! BRN ena 
ning, 1973]。 然 而 ， 还 有 其 他 的 方法 能 够 用 于 估计 驻 留 集中 的 成 员 ， 例 如 ， me mean earn 
RTH, ALLURE TRAE MRR, AmI EES 
“REBT EON, ORT, ESM MOLLE gs eee Tm 
应 进程 的 驻 留 集 ; 另 一 方面 ， 如 果 频 率 低 于 一 个 预定 的 国 值 ， 那 么 算法 就 假 。 。 个 页 , 0 和 1 
定 分 配 的 页 帆 数 比 起 保存 驻 留 集 而 言 要 允 ， 因 而 就 释放 一 些 页 帧 。 

驻 留 集 原理 规定 : 只 有 进程 ; 被 分 配 有 足够 的 页 巾 来 保存 它 的 整个 驻 留 集 时 ， 它 才 可 以 被 加 载 并 且 是 
活 唉 的 ， 否 则 进程 应 该 被 阻塞 。 驻 留 集 的 实现 完全 取决 于 一 个 评 信和 量 (如 窗口 大 小 或 者 缺 页 错误 率 阔 值 ) 
来 试图 准确 地 确定 驻 留 集 。 

驻 留 集 算法 定义 了 大 多 数 当代 页 面 调度 系统 的 基础 ， 尽 管 它 的 理论 形式 (参见 下 面 的 示例 一 节 ) 没有 
被 使 用 (如果 有 也 是 曾经 使 用 )。 在 它 依靠 后 方 距离 信息 来 确定 窗口 成 员 的 同时 ， 它 还 汇集 了 局 部 性 和 最 
小 主 存 请 求 来 运行 进程 的 思想 。 驻 留 集中 独立 可 变 的 是 窗口 的 大 小 ， 并 且 是 由 进程 的 行为 特征 所 确定 的 。 





示例 : 驻 留 集 算法 
例子 表明 如 果 w 太 小 ,那么 驻 留 集 算法 容易 发 生 择 动 。 测 量 缺 页 错误 发 生 的 频率 ， 然 后 调整 w 的 大 
小 ， 如 果 缺 页 错误 率 超 过 一 个 阔 值 ， 那 么 就 使 w 变 大 ; 如 果 缺 页 错误 率 低 于 一 个 阐 值 ， 那 么 减 小 w。 本 
质 上 ， 这 种 方法 就 是 基于 所 观察 到 的 缺 页 错误 率 调整 w 来 适合 局 部 性 ， 增 加 zw 将 会 增加 分 配给 进程 的 主 
存 数 ， 同 时 减 小 w 往往 会 有 相反 的 效果 。 
假设 使 用 w=3 的 驻 留 集 算法 来 处 理 前 面 用 于 说 明 静 态 分 配 算法 的 访问 流 ， 算 法 会 产生 16 个 缺 页 错 ， 
如 表 12-8 所 示 。 


表 12-8 w=3 的 驻 留 集 








页 帧 0 1 2 3 0 1 2 3 0 1 2 3 4 5 6 7 
0 0 0 3* 3 3 2* 2 2 1* 1 1 4” 4 4 7 
1 1* 1 1 0* 0 0 3* 3 3 2* 2 2 5* 5 5 
2 2* 2 2 1* 1 1 0* 0 0 3* 3 3 6* 6 
分 配 1 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 


注意 到 进程 页 面 加 载 从 0 号 页 帧 开始 ， 一 直 加 载 到 w=3 页 由 中 的 最 大 号 。 通 过 调整 窗口 大 小 为 w= 
4， 刚 好 满足 该 访问 流 的 局 部 集 需 求 ， 驻 留 集 算法 的 性 能 有 了 相当 大 的 提高 (参见 表 12-9)。 因 为 访问 流 中 
有 8 个 不 同 的 页 ， 而 每 个 页 必须 至 少 加 载 一 次 ， 结 果 是 发 生 了 8 次 缺 页 错误 。 


表 12-9 w=4 的 驻 留 集 





页 帧 0 1 2 3 0 1 2 3 0 1 2 3 4 § 6 7 
0 0” 0 0 0 0 0 0 0 0 0 0 0 4* 4 4 4 
1 1* 1 1 1 1 1 1 1 1 1 1 1 5” 5 5 
2 2” 2 2 2 2 2 2 2 2 2 2 2 6* 6 
3 3* 3 3 3 3 3 3 3 3 3 3 3 7* 
分 配 1 2 4 4 4 4 4 4 4 4 4 4 4 4 4 
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在 这 些 例子 中 ,分 配 的 最 大 页 帧 数 都 是 ww。 当 窗口 大 小 超过 进程 页 局 部 集 大 小 时 ,分 配 的 页 帧 会 小 于 
w, 例如， 假设 记 =9 (参见 表 12-10)， 这 种 配置 使 用 了 更 多 主 存 的 同时 ， 并 没有 减少 缺 页 错误 的 数目 ， 
因为 它 已 经 最 小 了 。 | 
表 12-10 w=9 的 驻 留 集 
2 0 
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下 面 再 看 一 个 进程 在 执行 期 间 分 配 的 页 帧 数 减 小 了 的 例子 ， 因 此 我 们 不 得 不 考虑 一 个 不 同 的 访问 流 
(在 表 12-11 中 ,假定 w= 4)。 


R 12-11 w=4 的 驻 留 集 算法 的 另 一 个 例子 











页 bt 1 2 3 0 1 0 1 2 3 2 3 4 5 6 7 

0 0 0 0 0 0 0 0 0 0 0 4* 4 4 4 

1 1* 1 1 1 1 1 1 1 1 1 5* 5 5 

2 2* 2 2 2 ; 2* 2 2 2 2 2 6 6 

3 3* 3 3 3* 3 3 3 3 3 7* 

分 配 1 2 4 4 4 2 3 4 3 2 3 4 4 4 
| 
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驻 留 集 算法 甚至 要 比 LRU 算法 更 难以 实现 (而 LRU 只 是 使 用 近似 实现 来 达到 较 高 性 价 比 的 )。 时 钟 
算法 被 引入 作为 一 种 驻 留 集 算法 的 近似 实现 方式 ， 它 规定 了 类 似 的 缺 页 错误 率 ， 但 允许 以 一 种 比较 简单 的 
方式 来 实现 ， 例 如 ， 为 每 个 进程 保存 窗口 的 内 容 。 WSClock 算法 是 基于 时 钟 算法 的 一 一 种 比较 早 的 实现 驻 留 
集 算 法 的 方法 ， 是 当代 实现 中 采用 的 基本 技术 。 

时 钟 算 法 〈clock algorithm) 的 思想 是 : 所 有 进程 的 页 帧 如 同 被 排列 在 一 个 循环 列表 中 ， 像 时 钟 上 显示 
的 时 钟 数 的 排列 一 样 。 

B 列表 中 有 一 个 指针 来 定位 页 帧 。 

n 当 蔡 换 算法 请 求 一 个 页 被 替换 时 ， 指 针 会 提前 指向 下 一 个 页 帧 ， 并 且 这 个 页 帧 就 是 被 认为 要 替换 

的 。 

E 每 个 页 帧 中 包含 一 个 访问 位 〈 如 静态 算法 的 LRU 实现 中 一 样 )， 在 访问 页 时 会 被 置 位 。 

n 在 页 被 考虑 要 替换 时 ， 算 法 会 检查 页 中 的 访问 位 。 

E 如 果 访 问 位 置 位 ， 那 么 指针 移 到 下 一 个 页 帧 。 

a 否则 ， 该 页 被 替换 掉 并 且 清 所 有 访问 位 为 0。 

在 这 种 诠释 中 ， 时 钟 算法 的 行为 像 一 个 针对 所 有 进程 所 有 页 面 的 全 局 LRU 算法 ， 即 ， 它 类 似 于 对 一 
个 进程 的 LRU 实现 (H 12.4 节 中 讨论 过 ) ， 然 而 它 一 次 应 用 于 所 有 进程 所 保持 的 页 面 。 

假设 进程 3 发 生 了 一 个 缺 页 错 ， 并 且 存储 管理 器 决定 加 载 该 页 ， 在 表 12-12 中 表现 了 时 钟 算法 的 数据 
结构 (注意 到 表 12-12 与 表 12-7 中 的 LRU 近似 实现 类 似 )。 表 中 标记 了 所 有 的 页 巾 、 访 问 位 以 及 页 帧 所 属 ， 
的 进程 ， 左 边 的 三 列表 现 了 访问 位 被 清 0 后 的 数据 结构 ， 并 且 时 钟 指针 指向 页 帧 4。 当 有 必要 替换 一 个 页 
时 〈 表 12-12 的 右边 三 列 )， 存 储 管理 器 检查 页 巾 53 并 确定 它 最 近 被 访问 过 ， 然 后 它 又 从 页 帧 9 开始 检查 ， 
依 此 类 推 。 页 帧 34 的 访问 位 为 0， 因 而 它 将 被 替换 ， 这 意味 着 页 帧 34 将 从 进程 2 中 释放 并 分 配给 进程 3。 
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E 12-12 近似 的 全 局 LRU 算法 





TT 
页 i 访 问 位 进 B 页 OW 访 问 位 i g 
10 0 | 10 0 


wo e e N U O ww 
‘oO 





we) 

A 
=- = O O = = m= 
U A e N U D N Q 


基本 的 时 钟 算法 可 以 通过 使 用 全 局 LRU 机 制 估计 窗口 大 小 ， 从 而 扩展 为 WSClock 算法 。 假 设 时 钟 算 法 中 为 
每 个 页 帧 附加 一 个 名 为 lastRef 的 变量 ， 当 访问 位 置 位 时 ，lastRef [frame] 设置 为 使 用 该 页 帧 的 进程 的 当前 虚 
拟 时 间 Tws;。 当 发 生 缺 页 错误 时 ， 算 法 开始 像 一 般 的 时 钟 算法 一 样 来 检查 记录 情况 ， 当 它 发 现 一 个 页 帧 的 访 
间 位 为 0 时 ， 它 查看 一 下 是 否 该 页 帧 应 该 从 使 用 它 的 进程 的 窗口 中 移出 ， 它 通过 下 式 进行 比较 : 

Tms i ~ lastRef[frame] >w 
其 中 ，Twus; 是 进程 ; 的 当前 虚拟 时 间 ，lastRef [frame] 是 该 页 上 次 被 访问 时 的 时 间 。 虽 然 lastRef 是 进 
程 的 上 次 访问 虚拟 时 间 而 不 是 实际 时 间 ， 它 允许 全 局 LRU 时 钟 策略 去 获取 窗口 大 小 为 w 的 驻 留 集 的 基本 
行为 。 在 大 多 数 当代 页 式 计 算 机 系统 中 都 采用 了 WSClock 算法 的 变种 。 

下 面 是 使 用 WSClock 的 例子 : 假设 有 三 个 进程 pp、p1 以 及 思 在 主 存 中 共享 15 PHM, SE po 执行 到 虚 
拟 时 间 55， 户 执行 到 虚拟 时 间 753， 户 执行 到 虚拟 时 间 80， 因 而 To=55, Tyy=75, T,2=80. X 12-13 中 给 
出 了 时 钟 变量 的 设置 (其 中 页 帧 0 在 算法 考虑 过 页 帧 14 后 才 被 考虑 ) ， 时 钟 指针 定位 在 页 帧 号 6 上 。 如 果 进 
E po 发 生 了 一 个 缺 页 错误 ,那么 基本 时 钟 算法 将 检查 页 帧 6 的 访问 位 ， 并 确定 自从 上 次 缺 页 错误 以 来 被 访问 
过 的 页 ， 移 动 指针 到 页 帧 7， 它 的 访问 位 为 0， 因 而 分 配 该 页 帧 给 如， 加 载 缺 页 到 页 帧 7 中 。 


表 12-13 WSClock 运行 状态 











页 hi 0 1 2 3 4 5 6 7 8 9 10 it R B 14 
访问 位 0 1 0 1 1 0 1 0 1 1 0 0 0 0 0 
进程 号 0 0 1 2 2 1 1 0 2 0 1 2 0 1 2 
LastRef 15 51 69 65 80 15 75 33 70 54 23 25 45 25 47 
nextPtr tt 





假设 进程 ps 发 生 了 一 个 缺 页 错误 ， 那 么 算法 又 将 会 选择 页 帧 7 进行 替换 ， 但 它 将 不 得 不 在 加 载 缺 页 
之 前 ， 先 从 po 中 去 配 页 帧 7， 再 分 配给 pro 

现在 考虑 使 用 w=25 的 WSClock 算法 的 运行 状态 。 如 果 刚 好 进程 po 发 生 了 一 个 缺 页 错误 ， 那么 WSClock 算 
法 将 检查 页 帧 6 的 访问 位 ， 发 现 被 置 位 并 移动 到 页 帧 7 (如 同 基本 时 钟 算法 一 样 )，T,o = 55， 因 而 有 : 

Tp- lastRef[7]=55- 33 = 22 < w 

由 于 表达 式 值 小 于 ww， 那么 算法 将 转向 检查 页 帧 8， 发 现 访问 位 置 位 后 又 转向 检查 页 帧 9， 发现 其 访 

问 位 仍然 置 位 ， 因 而 WSClock 算法 接 下 来 查看 页 帧 10 (已 分 配给 2) 并 计算 下 式 ， 
Tp- lastRef[10]=75~23 = 52>25=w 

ABA Tip 10 将 从 pi 中 去 配 而 分 配给 户 ， 然 后 加 载 缺 页 。 





| 
示例 : 利用 分 页 实现 IPC 
页 面 调度 系统 为 实现 从 一 个 进程 的 地 址 空间 拷贝 信息 到 另 一 个 进程 中 ， 如 IPC 机 制 中 的 消息 传递 ， 提 
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供 了 一 个 获得 高 性 能 的 机 会 。 假 设 要 拷贝 的 信息 刚好 被 加 载 到 一 个 页 面 大 小 的 缓冲 中 ， 如 果 缓 冲 是 在 发 送 
者 的 地 址 空间 中 ， 消 息 就 能 够 通过 如 下 方法 从 发 送 者 的 地 址 空间 中 移动 到 接收 者 的 地 址 空间 中 : 通过 在 发 
送 者 的 页 表 中 删除 指向 包含 该 页 页 帧 的 页 表 指针 ， 并 将 它 增加 到 (或 替换 一 个 存在 的 指针 ) 接收 者 的 页 表 
中 来 实现 。 信 息 还 保存 在 同一 个 物理 页 帧 中 ,但 页 帧 已 经 从 发 送 者 的 地 址 空间 中 释放 ， 而 增加 到 接收 者 的 
地 址 空间 中 了 。 

在 9.3 节 中 描述 的 写 时 拷贝 语义 (copy-on-write) 也 可 以 应 用 到 IPC 机 制 中 以 获得 更 高 的 性 能 (如 同 
在 Mach 操作 系统 中 一 样 )。 当 一 个 消息 发 送 时 ， 它 所 在 的 页 被 映射 到 接收 者 的 地 址 空间 中 ， 同 时 保留 到 发 
送 者 空间 的 映射 。 只 要 任 一 个 进程 不 对 页 进行 写 操作 ， 该 页 就 会 安全 地 被 两 个 进程 所 共享 (假定 存储 管理 
器 不 会 从 任 一 个 进程 的 页 表 中 把 它 移 走 )。 当 任 一 个 进程 对 页 进行 写 操作 时 ， 则 产生 相应 页 拷贝 ， 以 后 对 
该 页 的 处 理 与 处 理 其 他 页 一 样 来 进行 。 

ie ER E 


«= 
示例 : Windows NT/2000/XP 虚拟 存储 器 

Windows NT/2000/XP 中 的 每 个 进程 都 假定 有 一 个 固定 大 小 的 虚拟 地 址 空间 一 一 40 亿 个 字 节 (4GB)， 当 
然 比 当代 任 一 计算 机 中 的 主 存 空间 都 要 大 很 多 。 进 程 并 不 必要 使 用 所 有 的 虚拟 地 址 空间 ， 而 只 是 需要 多 少 使 
用 多 少 。 通 常情 况 下 ， 代 表 程 序 的 .EXE 要 比 地 址 空间 小 很 多 。 虚 拟 地 址 空间 的 一 部 分 一 一 通常 为 2GB， 用 
于 线程 访问 的 用 户 空间 对 象 ， 剩余 的 部 分 是 由 操作 系统 使 用 的 空间 ( 它 是 管理 空间 )S。 尽 管 地 址 空间 的 管理 
空间 部 分 存在 于 一 个 进程 的 虚拟 地 址 空间 中 ,但 它 只 能 通过 在 管理 模式 下 运行 的 线程 来 进行 访问 。 

操作 系统 需要 某 种 方法 来 确定 进程 打算 使 用 的 地 址 空间 数目 。 链 接 编辑 器 在 EXE 文件 中 建立 起 了 静 
态 执行 映像 ， 它 一 般 用 于 定义 地 址 空间 、 动 态 链接 库 和 其 他 动态 分 配 的 地 址 空间 部 分 ， 能 够 在 运行 时 刻 增 
加 到 虚拟 地 址 空间 中 。 

动态 地 在 地 址 空间 中 增加 寻 址 空间 有 两 个 阶段 (参见 图 12-12): 


@ 访 问 页 ;的 地 址 K( 用 户 空间 ) 








虚拟 地 址 空间 





@ 进 程 访 问 包含 页 i 的 页 帧 j 


Heb 
用 户 空间 


图 12-12 Windows NT 中 的 页 面 调度 系统 
WÈ: 在 第 一 步 ， 线 程 访问 页 ; 中 的 地 址 &。 如 果 页 没有 被 加 载 ， 会 在 磁盘 上 寻找 ， 并 将 其 载 人 页 帧 ) ， 然 后 线程 可 
以 访问 虚拟 存储 器 中 的 内 容 。 


1) 预约 (reserve) 地 址 空间 的 一 部 分 ， 称 之 为 区 (region); 


名” 进程 地 址 空间 中 应 用 程序 部 分 与 内 核 部 分 的 相对 比例 大 小 ， 在 Windows NT/2000/XP 的 服务 器 版 和 专业 版 中 是 
不 同 的 。 这 是 两 种 操作 系统 版 本 之 间 的 配置 上 的 区 别 之 一 ， 服 务 器 版 本 中 大 部 分 的 地 址 空间 作为 用 户 空间 ， 从 
而 允许 应 用 程序 可 以 在 虚拟 存储 器 中 存 有 大 量 的 信息 。 
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2) ME (commit) 地 址 空间 中 的 区 中 的 一 个 可 包含 若干 页 的 页 块 。 

进程 中 的 一 个 线程 可 以 动态 地 预约 虚拟 地 址 中 的 一 个 区 ， 而 不 会 引起 实际 对 辅 存 中 的 页 文件 (page 
file) (有 时 也 称 为 分 页 文件 ，paging file) 进行 写 操作 。 进 程 上 的 一 个 线程 也 可 以 随后 释放 它 以 前 预约 的 地 
址 空间 的 区 。 

第 二 个 阶段 是 确定 前 面 所 预约 的 地 址 (确定 的 块 经 常 是 预约 区 的 一 个 子 集 )。 一 旦 地 址 空间 的 一 部 分 
确定 ， 就 会 在 页 文件 中 为 它 分 配 空间 。 如 果 进 程 中 的 一 个 线程 后 面 访问 确定 的 主 存 ， 那 么 将 从 页 文件 中 加 
载 包 含 被 访问 地 址 的 页 到 主 存 中 (当然 ， 当 已 经 被 预约 和 确定 的 那 部 分 地 址 空间 在 第 一 次 被 访问 时 ， 它 们 
并 没有 被 写 过 ， 因 而 在 第 一 次 访问 时 将 加 载 一 个 全 0 的 空 页 )。 

每 个 处 理 机 都 支持 一 个 特殊 的 分 配 粒 度 (allocation granularity) 来 确定 可 以 预约 的 地 址 块 的 最 小 数目 。 
在 当前 的 所 有 实现 中 ， 分 配 粒 度 是 64KB。 无 论 什么 时 候 进行 预约 ， 在 预约 实现 之 前 ， 地 址 会 自动 指向 下 
一 个 分 配 粒度 的 边界 。 

每 个 处 理 机 也 支持 自己 的 页 面 大 小 (你 也 可 以 使 用 GetSystemInfo () 来 得 到 处 理 机 的 页 面 大 小 ) 
一 一 通常 为 4KB 或 8KB。 存 储 是 以 页 为 单位 确定 的 ， 因 而 实际 地 址 预约 能 够 以 更 小 的 粒度 进行 。 一 旦 虚 
拟 地 址 已 经 确定 ， 线 程 就 可 以 像 静态 分 配 的 那 部 分 地 址 一 样 来 使 用 这 些 主 存 了 。 

页 式 系统 的 内 部 实现 

地 址 转换 取决 于 某 个 硬件 部 件 检测 缺 页 
并 快速 将 页 映射 到 页 帧 中 的 表现 。 虚 拟 地 址 
是 通过 处 理 机 生成 的 32 位 地 址 ， 对 比 传统 的 
页 式 机 制 ，Windows NT/2000/XP 采用 了 两 级 
地 址 转换 设施 (参见 图 12-13)。 页 的 字 节 索 . 
引 是 使 用 地 址 中 最 低 端的 Kj 个 有 意义 的 位 ， 
在 使 用 页 大 小 为 4 KB 的 i386 中 Ki 为 12, 而 
在 使 用 页 大 小 为 8KB 的 Digital Alpha 处 理 机 中 
Ki 为 13。 传 统 的 单 级 页 式 机 制 中 ， 使 用 剩余 
的 地 址 位 作为 页 号 ， 而 在 Windows NT/2000 
中 ， 剩 余 的 地 址 位 称 为 虚拟 页 号 ， 并 且 它 又 
分 成 两 部 分 ， 分 别称 为 页 表 索 引 (K; 个 位 ) 
和 页 目录 索引 (地 址 最 高 端 有 意义 的 KK; 个 
fit). FE x86 系列 处 理 机 中 ， 天 2 和 开 3 都 是 10， 图 12-13 Windows 地 址 转换 
而 在 Alpha 处 理 机 中 Ks 是 11 并 且 Ks 是 8。 LE: Windows 使 用 两 级 页 表 映 射 机 制 : 页 目录 和 页 表 。 页 表 用 

在 地 址 转换 时 ,按照 如 下 的 方式 使 用 地 来 访问 一 组 相关 页 ， 页 表 可 以 通过 一 页 目录 项 访问 。 

址 中 的 这 三 个 域 : 

1) 进程 控制 块 中 包含 一 个 指针 A， 指 向 该 进程 页 目录 的 开始 位 置 。 

2) 页 目录 索引 a 是 页 目录 中 的 一 个 偏 移 量 ， 其 中 放置 指定 页 的 页 描述 符 项 (page descriptor entry, PDE). 

3) 每 个 进程 可 以 有 几 个 不 同 的 页 表 ， 在 主 存 访问 中 要 使 用 PDE 来 访问 特定 的 页 表 (图 中 的 指针 B)。 

4) 通过 使 用 页 表 索 引 b， 在 页 表 中 可 以 找到 页 表 项 (page table entry , PTE). 

5) 如 果 目 标 页 当前 被 加 载 在 主 存 中 的 页 帧 ) 中 ， 那 么 PTE 就 通过 指针 C 指向 该 页 巾 。 如 果 目 标 页 没 
有 被 加 载 ， 那 么 虚拟 存储 管理 器 一 定 把 该 页 放置 在 页 文件 中 ， 找 一 个 可 用 页 帧 分 配给 进程 ， 然 后 将 该 页 加 
载 到 页 帧 中 。 

6) 最 后 ， 字 节 索 引 c 累加 到 页 帧 基地 址 中 ， 从 而 获得 目标 字 节 在 主 存 中 的 位 置 。 

虽然 页 目录 能 够 被 映射 到 任意 位 置 (图 12-13 中 的 指针 A), 实际 上 它 被 放置 在 地 址 空间 中 的 一 个 固定 
点 一 一 386 系 统 中 的 0xC 0300000 以 及 Alpha 处 理 机 中 的 0xc 018000。 两 种 处 理 机 中 都 使 用 一 个 专用 的 处 理 机 寄存 
器 来 访问 页 目录 ， 只 要 一 个 运行 线程 被 剥夺 处 理 机 ， 该 寄存 器 就 会 作为 线程 上 下 文 的 一 部 分 被 保存 起 来 。 








加 ”只 是 使 事情 复杂 化 ，Windows 文档 中 所 提 到 的 页 块 和 分 配 区 都 作为 “区 "。 这 里 使 用 的 术语 来 自 Richter [1997]. 
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Windows NT/2000/XP 使 用 多 个 页 表 来 区 分 使 用 不 同 的 地 址 空间 。 页 之 间 最 明显 的 不 同 就 是 ， 一 些 页 
是 属于 用 户 空 间 的 ， 而 其 他 一 些 页 是 属于 内 核 空 间 的 一 一 它们 通过 不 同 的 页 表 来 映射 。 注 意 到 内 核 空间 页 
由 一 个 单独 的 页 表 来 描述 ， 因 此 有 内 核 PDE 的 不 同 进程 会 指向 相同 页 表 。 而 且 这 些 页 表 也 会 由 于 其 地 址 
空间 使 用 主 存 的 特殊 部 分 而 明显 区 别 于 其 他 页 表 。 例 如 ， 在 内 核 空间 中 ， 一 些 内 核 主 存 部 分 可 以 像 用 户 空 
间 那 样 进 行 分 页 ， 但 其 他 一 些 内 核 空间 不 允许 分 页 一 一 它们 从 一 个 特殊 的 非 分 页 主 存 块 池 中 分 配 9 。 

当 相应 的 页 加 载 时 ， 每 个 PTE 引用 一 个 页 帧 号 ， 还 有 一 组 标志 来 描述 页 如 何 被 访问 ， 包 括 PTE 是 否 
是 有 效 的 ， 页 是 否 被 预约 ， 该 页 是 否 是 脏 的 ， 自 从 上 个 时 期 以 来 该 页 是 否 被 访问 过 等 。 

存储 访问 时 要 求 能 够 在 页 目录 中 找到 PDE， 并 且 在 页 表 中 找到 PTE。 这 意味 着 ， 如 果 处 理 机 中 不 提供 
特殊 的 硬件 实现 ， 那 么 一 个 通常 的 主 存 访问 又 会 引起 几 个 附加 的 主 存 访问 。 当 代 计 算 机 中 ， 如 Intel i386 
和 Digital Alpha 处 理 机 中 ， 都 使 用 TLB (参见 12.3 节 中 的 页 表 实 现 )。 

Windows NT/2000/XP 使 用 按 请 求 调 页 的 方式 ， 这 意味 着 页 直到 被 访问 时 才 加 载 到 主 存 中 ， 而 且 该 页 
的 PTE 甚至 到 该 页 加 载 时 才 被 创建 。 这 种 实现 方法 的 依据 是 一 个 进程 可 能 预约 的 主 存 地 址 根本 就 没有 使 
用 ,事实 上 ， 进程 也 可 能 尽管 确定 了 存储 页 ， 但 在 执行 期 间 却 从 来 不 访问 它 。 虽 然 地 址 空间 是 如 此 之 大 ， 
如 果 一 旦 预约 或 确定 就 创建 PTE， 那 么 就 会 有 这 样 一 种 可 能 : 创建 了 很 多 的 PTE 却 从 来 没有 用 过 ， 结 果 
是 PTE 浪费 了 大 量 的 存储 空间 。 

因为 PTE 直到 它 第 一 次 使 用 时 才 被 创建 ， 操 作 系统 必须 使 用 其 他 的 数据 结构 来 记录 预约 和 确定 的 操作 。 只 
要 一 个 进程 预约 或 确定 虚拟 地 址 ， 就 会 创建 一 个 虚拟 地 址 描述 符 (virtual address descriptor, VAD) 来 记录 被 预约 
和 确定 的 空间 。 当 一 个 线程 第 一 次 访问 VAD 中 的 地 址 时 ， 就 会 创建 PTE， 因 此 地 址 转换 可 以 正常 进行 。 

这 里 要 考虑 的 页 式 系 统 内 部 实现 的 最 后 一 个 方面 是 主 存 的 分 配 。Windows NT/2000/XP 使 用 带 时 钟 算 
法 的 驻 留 集 ， 对 进程 驻 留 集 与 进程 使 用 的 系统 驻 留 集 加 以 区 别 。 进 程 驻 留 集 的 增长 和 减少 与 典型 的 驻 留 集 
一 样 ， 它 开始 使 用 一 个 默认 的 最 小 值 一 一 20 或 50 个 页 ， 并 且 不 允许 超过 一 个 默认 的 最 大 值 一 一 45 到 345 
个 页 之 间 。 然 而 ， 系 统管 理 员 可 以 改变 最 大 的 驻 留 集 值 。 





—— |B 





E 
ARB: Linux 虚拟 存储 器 

在 版 本 2.0.x 的 Linux 中 ， 存 储 管理 器 使 用 了 动态 的 、 页 式 的 虚拟 存储 策略 。 进 程 使 用 虚拟 地 址 (已 
经 被 映射 )， 存 储 管理 器 负责 确定 是 否 相 应 页 被 加 载 到 了 某 个 主 存 页 帧 中 。 如 果 它 没有 被 加 载 ， 在 辅 存 中 
找到 该 页 ， 系 统 如 果 有 一 个 未 使 用 的 页 帧 ， 就 将 其 加 载 到 该 页 帧 中 ， 如 果 没 有 可 用 页 帧 ， 替 换算 法 会 与 一 
般 的 静态 请 求 调 页 一 样 ， 钾 载 一 个 当前 在 主 存 中 的 页 。 如 果 页 面 被 加 载 到 某 一 主 存 页 帧 中 ， 那 么 虚拟 地 址 
就 被 转换 成 相应 的 物理 地 址 ， 相 应 的 物理 主 存单 元 就 能 够 通过 指令 进行 读 写 了 。 

Linux 定义 了 一 个 体系 结构 无 关 的 存储 模型 ， 它 超越 了 当今 的 CPU 和 存储 管理 部 件 (MMU), AE 
包括 没有 被 用 过 的 部 件 ( 如 在 i386 的 实现 中 ) 呈 。 在 这 种 通用 的 模型 中 ， 应 用 三 级 映射 来 实现 虚拟 地 址 到 
物理 地 址 的 转换 。 一 个 虚拟 地 址 j 被 划分 成 4 个 部 分 : 

e 页 目录 偏 移 量 j.pgd 

n 页 中 间 目 录 偏 移 j.pmd 

B 页 表 偏 移 j.pte 

E RAGE j.offset 

如 果 一 个 页 被 加 载 到 主 存 中 ， 由 虚拟 地 址 j 所 确定 的 物理 地 址 ; 为 ; 


i = PTE(PMD(PGD(j.pgd) + j.pmd) + j.pte) + j.offset 





O 非 分 页 主 存 块 包含 需要 存放 在 主 存 中 的 信息 或 程序 代码 ， 因 为 它们 当前 正在 使 用 (如 一 个 缓冲 )， 或 者 是 必须 
。 可 立即 运行 的 代码 (如 虚拟 存储 管理 器 或 调度 程序 代码 ) 。 
© Windows 使 用 “x86” 来 指称 Intel 80x86， 包 括 了 Pentium 处 理 器 ， 但 是 Linux 中 使 用 “i386”。 
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其 中 PGD HAR RA RH, PMD 表示 页 中 间 目 录 sit 
表 ，PTE 表示 页 表 。 从 概念 上 (参见 图 1214), XE [Tre Tipma | jpe [voter] 
味 着 虚拟 地 址 被 划分 成 4 个 部 分 : 
aj ped 部 分 用 于 定位 页 目录 的 表 项 ， 通 过 它 可 以 
引用 页 中 间 目 录 的 基地 址 ， 再 引用 页 中 间 目 录 TAR 
中 的 表 项 。 

m HEHEA j. pmd 部 分 用 作 指 定 的 页 中 间 目 录 中 的 信 
移 量 ， 它 可 以 引用 页 中 间 目 录 中 的 一 个 表 项 ， 








该 表 项 有 指针 指向 页 表 使 用 的 基地 址 。 页 中 间 

m 虚拟 地 址 中 的 j. pte 部 分 是 页 表 中 的 偏 移 量 ， 通 HX 页 表 

过 它 可 以 引用 一 个 页 描述 符 ， 其 中 有 包含 目标 图 12-14 虚拟 地 址 转换 

页 的 页 帧 起 始 位 置 的 物理 地 址 。 注 , Linux 使 用 了 三 级 页 映射 机 制 ， 页 目录 、 页 中 
m 页 偏 移 量 j.offset 被 加 到 页 帧 地 址 中 ， 用 来 确定 间 目 录 以 及 页 表 。 在 Intel 386 实现 中 ， 页 中 间 
虚拟 地 址 j 的 物理 地 址 i。 目录 并 没有 使 用 。 


当然 ， 如 果 某 一 映射 没有 定义 ， 那么 在 地 址 转换 期 间 将 产生 一 个 缺 页 中 断 ， 从 而 引起 页 管理 程序 加 载 
该 页 ， 并 映射 到 虚拟 地 址 上 。 

i386 微 处 理 器 和 兼容 的 MMU 中 没有 足够 的 硬件 来 支持 完整 的 三 级 转换 处 理 过 程 ， 在 这 个 体系 结构 中 
只 实现 了 三 级 转换 中 的 两 级 。 这 是 通过 减少 每 个 页 中 间 目 录 使 其 只 包含 一 个 表 项 来 实现 的 ， 这 意味 着 
j.pmd 部 分 的 地 址 没有 使 用 ， 因 为 页 目录 表 项 直接 指向 了 页 中 间 目 录 的 单一 表 项 。 
E 





12.6 RÉ 
段 式 系统 是 虚拟 存储 器 的 另 一 种 实现 ， 程 序 使 用 下 述 两 部 分 结合 的 地 址 形式 : 
< segnentNunber, offset > 


segnentNumber 说 明了 段 号 ， 可 以 确定 一 个 加 载 段 的 基地 址 位 置 ， 通 过 目标 单元 在 段 内 的 偏 移 量 offset， 
可 以 最 后 确定 目标 单元 的 位 置 。 第 11 章 中 描述 了 一 种 简单 的 段 式 操作 。 在 其 中 ， 使 用 “代码 段 寄 存 器 ”来 
动态 地 取 指令 ,使 用 “数据 段 ”寄存 器 来 访问 欧 态 数据 ， 以 及 使 用 “堆栈 段 ”寄存 器 来 访问 进程 的 栈 。 

虚拟 存储 段 寄存 器 也 采用 了 通过 重 定位 寄存 器 进行 动态 硬件 重 定位 的 思想 。 系 统 设计 时 在 任意 时 刻 支 
持 相对 多 数目 的 段 ， 例 如 ，Multics 进程 能 够 有 64K 个 不 同 的 段 。 段 式 机 制 为 每 个 段 配备 了 逻辑 界限 寄存 
器 ， 用 来 检查 每 个 虚拟 地 址 以 确保 它 在 段 内 。 

本 节 的 其 余部 分 描述 了 地 址 如 何在 运行 时 刻 由 符号 化 段 标识 和 偏 移 地 址 转换 成 主 存 位 置 。 同 时 也 讨论 
了 Multics 的 段 系 统 ， 因 为 它 是 最 普遍 的 段 式 系统 。 


12.6.1 地 址 转换 


由 于 地 址 转换 是 虚拟 存储 器 的 基本 概念 ， 所 以 段 式 系统 的 讨论 也 从 考虑 映射 机 制 的 特征 开始 。 段 的 名 

字 空 间 是 一 个 两 维 空间 ， 因 而 虚拟 - 物理 地 址 的 映射 有 如 下 的 形式 : - 
B, : 段 空 间 x 偏 移 空间 一 主 存 空间 U 1a} 
任 一 名 字 空 间 访问 形式 如 下 ; 
B,(i,j) = k 

其 中 i RRS, j 是 段 内 的 偏 移 量 ，A 是 段 加 载 的 主 存 位 置 (如 果 没 有 被 加 载 则 为 0)。 

段 名 像 文件 名 一 样 是 典型 的 符号 名 ， 它 是 在 运行 时 刻 被 绑 定 的 。 这 就 允许 进程 使 用 包含 符 导 的 程序 访 
间 其 他 的 段 ， 而 无 需 知道 段 号 (上 段 呈 到 运行 时 刻 才 确 定 )。 包 含 错误 代码 的 段 也 不 需要 绑 定 到 地 址 空间 
(因而 也 不 用 加 载 )， 除 非 发 生 了 错误 并 且 进 程 要 处 理 这 个 错误 。( 这 在 页 式 系 统 中 不 是 一 个 问题 ， 因 为 程 
序 员 从 来 不 会 用 符号 访问 一 个 页 。) 如 果 系 统 将 段 绑 定 延迟 到 执行 时 做 ， 这 通常 会 需要 另 一 级 的 地 址 转换 : 





308 #12¢ 





S: 段 名 一 段 号 
因而 完全 的 地 址 映射 有 如 下 的 形式 : 
B,(S(segmentName),j) = k 
其 中 segmentName 为 编译 成 可 执行 映像 中 的 目标 段 符 号 名 。 
在 大 多 数 复杂 的 段 式 系统 中 ， 段 内 的 偏 移 也 是 在 运行 时 刻 绑 定 的 ， 因 而 在 运行 时 刻 会 产生 第 三 次 转换 : 
N: 偏 移 名 一 偏 移 地 址 
推迟 虚拟 地 址 中 的 偏 移 到 指定 段 目标 偏 移 的 绑 定 ， 意 味 着 源 进程 在 编译 或 链接 时 刻 不 需 要 知道 指定 段 中 的 
偏 移 。 指 定 段 中 的 段 偏 移 可 以 通过 编译 器 和 链接 器 用 符号 来 定义 ， 而 不 用 关心 发 布 这 个 信息 给 可 能 需要 使 
用 段 的 进程 。 这 个 绑 定 可 以 在 运行 时 刻 第 一 次 访问 时 完成 。 
因而 地 址 映射 如 下 式 一 样 复杂 : 
B, (S (segmentName), N (offsetName)) =k 
其 中 segmentName 是 符号 段 名 ，offsetName 是 符号 化 标号 ， 如 同 段 内 的 一 个 人 口 点 名 。 

设计 一 个 完整 功能 的 段 式 系统 来 处 理 这 种 地 址 转换 的 任务 是 很 有 挑战 性 的 。 理 论 上 当 访 问 发 生 时 ， 每 
个 存储 访问 都 是 一 对 要 被 转换 的 符号 。 更 为 复杂 的 是 ， 映 射 是 随时 间 而 变化 的 ， 这 意味 着 段 可 以 被 加 载 到 
主 存 或 辅 存 中 的 任意 位 置 。 

一 些 实际 实现 中 作 了 许多 假设 ， 对 地 址 转换 进行 简化 一 一 例如 ， 它 们 不 允许 在 运行 时 刻 绑 定 段 和 偏 移 
名 。 更 为 复杂 的 系统 中 支持 延迟 绑 定 段 方式 ， 并 且 偏 移 名 设计 中 只 有 在 第 一 次 访问 段 时 ， 才 进行 完全 的 绑 
定 ， 随 后 对 前 面 加 载 段 的 访问 使 用 第 一 次 访问 时 所 建立 的 绑 定 关系 。 段 可 能 在 第 一 次 访问 之 后 被 卸载 ， 且 
符号 名 与 段 号 的 绑 定 可 以 被 重用 。 

图 12-15 中 展示 了 通常 的 段 地 址 转换 机 制 的 设 < 段 和 名, 偏 移 名 > 
计 。 操作 系统 为 每 个 进程 维护 一 个 段 表 (segment | | 
table) ， 段 表 通 常 也 是 段 ， 它 通常 作为 一 个 段 被 存储 
在 主 存 中 ， 只 要 进程 在 运行 ， 它 就 不 会 被 卸载 。 段 
表 是 一 组 表 项 的 集合 ， 每 一 个 表 项 称 为 一 个 段 描述 
符 (segment descriptor) ， 其 中 包含 支持 重 定位 的 域 ， 
如 特定 的 基 (base)、 地 址 界限 (limit) 以 及 段 的 保 
护 (protection) 寄存 器 内 容 等 (如 第 11 章 中 所 描述 
的 一 样 )。 基 域 中 包含 着 目标 段 的 段 重 定位 寄存 器 内 
容 (如 果 它 被 加 载 )， 地 址 界限 域 中 包含 有 段 的 长 缺 及 
度 ， 保 护 域 中 描述 了 允许 对 段 访问 的 形式 。 如 果 段 
没有 被 加 载 ， 段 描述 符 中 将 有 标记 来 指示 。 

当 进程 第 一 次 访问 一 个 特定 的 段 时 ， 通 过 使 用 
S 映射 将 段 名 转换 为 段 号 ， 其 结果 S (segment- 
Name) 是 段 表 的 偏 黎 ， 用 它 寻 址 目标 段 的 段 描述 
符 。 在 S 映射 将 “个 特定 访问 关联 到 段 描述 符 后 ， 注 : S 映射 和 映射 各 自转 换 段 名 和 偏 移 名 。S 映射 的 
疡 必须 为 随后 的 程序 语句 执行 绕 开 S 映射 操作 做 。 “站 果 是 指向 措 述 答 自 的 偏 称 ， 有 映射 信用 股 撒 术 
准备 。 为 实现 这 一 点 ， 大 多 数 原 语 方式 是 重 写 指令 。 符 的 基 寄 存 器 值 加 特定 段 描述 符 的 偏 移 来 实现 。 

中 的 操作 数 ， 因 而 使 它 包 含 一 个 段 号 而 不 是 段 名 ， 
注意 到 这 样 做 并 不 要 求 一 定 改变 代码 段 。 然 而 ， 如 果 代 码 没有 改变 ， 它 确实 需要 使 用 一 个 间接 访问 表 ， 在 
下 面 的 章节 中 将 给 出 如 何 实现 的 专门 例子 。 

在 一 些 系统 中 ， 偏 移 也 必须 被 绑 定 到 加 载 段 内 的 一 个 位 置 。 如 果 编 译 器 生成 的 段 访问 没有 目标 段 的 加 
载 映 射 ， 这 种 绑 定 就 可 能 发 生 。 因 此 它 将 没有 办 法 生成 正确 的 偏 移 数 。 所 以 在 对 偏 移 的 第 一 次 访问 时 ，N 
映射 必须 将 符号 偏 移 绑 定 到 段 内 的 某 个 位 置 。 系 统 在 随后 的 访问 中 确保 避免 对 该 符号 的 重 绑 定 。 

“ 在 段 描述 符 内 ， 基 域 指 向 加 载 段 的 主 存 位 置 ， 偏 移 量 被 加 到 基地 址 上 获得 特定 的 主 存 地 址 。 因 此 有 段 基地 
址 和 界限 值 用 于 重 定 位 以 及 在 运行 时 刻 检查 访问 越界 ， 如 同 硬件 动态 重 定位 中 使 用 的 重 定位 和 界限 寄存 器 一 样 。 





到 主 存 地 址 寄存 大 
图 12-15 段 式 虚拟 地 址 转换 
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12.6.2 实现 


实现 一 个 段 式 系统 的 方法 有 很 多 ， 大 多 数 的 实现 都 对 系统 作出 了 简化 的 假设 ， 因 此 这 些 实现 方法 并 没 
有 实现 前 面 所 描述 的 完整 地 址 转换 模型 。 例 如 ， 硬 件 动态 重 定位 寄存 器 是 用 于 寻 址 段 存储 的 一 种 基本 的 硬 
件 机 制 ， 但 它们 并 没有 实现 任何 形式 的 存储 保护 功能 。 

假设 硬件 中 结合 了 一 组 特殊 的 寄存 器 来 作为 进程 上 下 文 的 一 部 分 ， 当 进程 被 加 载 到 CPU 时 加 载 它 们 
( 见 图 12-16)。 段 表 寄 存 器 STR 指向 段 表 本 身 所 在 的 位 置 。 硬 件 中 可 以 使 用 3 个 附加 的 寄存 器 来 管理 地 址 
转换 。 代 码 基地 址 寄存 器 CBR 保存 代码 段 的 基地 址 值 ， 在 一 些 机 器 中 也 称 为 过 程 基 寄 存 器 PBR。 数 据 基 
地 址 寄存 器 DBR 用 于 动态 重 定位 静态 数据 访问 。 扒 找 段 基地 址 寄存 器 SBR 指向 包含 进程 栈 的 段 。 这 暗示 
着 后 续 指 令 中 如 果 有 对 通过 CBR 间接 寻 址 的 段 的 访问 ， 能 够 快速 地 执行 ， 因 为 无 需 绑 定 地 址 了 。 这 种 体 
系 结构 意味 着 后 续 数据 的 访问 是 对 同一 个 段 进 行 的 ， 后 续 栈 的 访问 也 是 对 同一 个 段 进 行 的 。 

图 中 表明 当 硬 件 形成 目标 主 存 地 址 时 ， 它 能 够 执行 对 主 存 的 间接 寻 址 操作 。 在 从 偏 移 位 置 j 处 取得 指 
令 的 过 程 中 ， 由 CBR 指向 的 段 措 述 符 的 基 域 中 的 内 容 被 用 作 目 标 段 的 基地 址 。 这 将 在 性 能 上 导致 额外 开 
销 ， 因 为 每 次 主 存 访问 必须 完成 两 次 存储 访问 : 第 一 次 访问 获得 段 基地 址 ， 第 二 次 才 访 问 目标 存储 位 置 。 
只 要 在 一 段 虚 拟 时 间 内 进程 访问 同一 个 代码 、 数 据 以 及 堆栈 段 ， 那 么 CBR、DBR 以 及 SBR 的 内 容 就 不 会 
改变 。 如 果 硬 件 中 也 结合 有 代码 、 数 据 以 及 栈 寄存 器 ( 基 和 界限 地 址 寄存 器 ) 来 进行 动态 硬件 重 定位 ， 那 
么 这 些 寄存 器 在 每 次 相应 的 STR 基地 址 寄存 器 改变 时 ， 就 会 通过 硬件 重新 加 载 。 存 储 访问 开销 的 极限 情 
况 发 生 在 进程 改变 上 下 文 时 一 一 它 执行 时 所 用 的 代码 、 数 据 或 堆栈 段 信 息 都 被 蔡 换 。 

图 12-16 中 所 描述 的 硬件 并 没有 为 动态 地 址 绑 定 提供 任何 特殊 的 帮助 。S 映射 必须 由 软件 计算 ， 然 后 将 
结果 存储 到 相应 的 基地 址 寄存 器 中 。 如 果 代码 、 数 据 或 堆栈 段 改 变 ， 要 么 S 映射 必须 重新 计算 (如 果 对 一 个 
以 前 没有 绑 定 到 进程 物理 空间 的 段 进 行 访问 )， 要 么 调整 CBR/DBR/SBR 指向 前 面 已 绑 定 段 的 段 描述 符 。 

程序 设计 语言 和 编译 器 必须 被 设计 成 有 效 地 使 用 段 式 系统 中 的 硬件 。 语 言 中 必须 提供 某 种 机 制 ， 使 程 
序 员 可 以 详细 说 明 符号 段 名 。 在 汇编 语言 中 ， 这 种 详细 说 明 是 通过 伪 操作 来 实现 的 一 一 例如 ，using 这 种 
伪 操 作 。 在 图 12-17 中 ,汇编 程序 最 初 在 它 自己 的 段 内 为 segmenta 生成 代码 。 当 指令 被 执行 时 ，CBR 的 内 
容 并 不 改变 。 然 而 对 [segmentC, 1ab20] 的 调用 进行 汇编 时 ， 加 入 一 条 指令 ， 加 载 用 段 名 确定 的 值 到 
CBR, CBR 加 载 指令 的 操作 数 是 对 segmentc 的 一 个 外 部 符号 引用 值 ， 它 是 在 运行 时 刻 由 S BRST SRE AY. 
调用 指令 在 CBR 加 载 指令 之 后 执行 。 对 于 当前 的 讨论 ， 假 设 lab20 的 值 在 运行 之 前 已 解决 。 





RSE 





segmentaA 


labi 


{segmentc, lab20] 


segmentB 


segmentc 





图 12-16 ” 段 式 地 址 转换 的 实现 图 12-17 程序 跨 段 的 访问 
注 : 通过 增加 STR, CBR, DBR 和 SBR CPU 寄存 器 ， 注 : using 伪 操 作 指明 汇编 器 需要 产生 相应 代 
转换 能 够 很 快 地 执行 。STR 指向 进程 的 描述 符 段 ， WE, call 指令 包含 了 符号 化 段 名 (seg 
CBR 指向 包含 了 代码 的 段 描述 符 表 项 ，DBR 和 mentC) 和 偏 移 名 (lab20)。 


SBR 分 别 指向 数据 段 和 堆栈 段 描述 符 表 项 。 
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using 伪 操作 会 引起 汇编 器 、 链 接 编 辑 器 以 及 加 载 程序 为 segmentB 和 segment C 生成 单独 可 执行 的 映 
像 ， 在 运行 时 刻 动态 链接 段 是 存储 管理 器 的 任务 。 当 segmentA 要 被 执行 时 ， 它 通过 标准 的 操作 系统 命令 
来 加 载 。 当 进程 遇 到 对 segmentCc 的 段 访 问 时 ， 符 号 地 址 必须 绑 定 到 主 存 的 一 个 地 址 。 

CBR 加 载 指令 必须 能 引起 到 操作 系统 的 自 陷 ， 正 常 的 指令 序列 将 被 中 断 ， 并 且 如 同 发 生 中 汤 一 样 将 控 
制 交 给 操作 系统 。 操 作 系 统 将 获得 引用 符号 ， 并 使 用 它 在 文件 系统 中 去 查找 segmentCc 的 可 执行 映像 。 一 
且 找 到 ， 该 映像 就 被 加 载 到 主 存 中 ， 并 且 在 段 表 中 加 入 相应 的 表 项 记录 segmentc。CBR 加 载 指令 可 能 被 修 
改 ， 也 许 使 用 间接 链接 指向 一 个 新 创建 的 段 描 述 符 ， 来 避免 实际 对 代码 的 修改 。 最 后 ，CBR 用 有 段 描述 符 偏 
移 进行 加 载 ， 并 且 指 令 被 重新 开始 执行 。 在 第 二 次 执行 中 ，CBR 加 载 指 令 遇 到 一 个 段 描述 符 偏 黎 ， 这 个 偏 
移 将 被 加 载 到 CBR， 因 此 后 面 的 地 址 转换 可 以 进行 了 ， 就 好 像 指 令 第 一 次 执行 时 segmentC 已 经 存在 一 样 。 


e 
ARP: Multics 段 式 系统 

Multics 操作 系统 被 设计 成 支持 带动 态 段 和 偏 移 绑 定 的 通用 形式 [Organick，1972]， 没 有 一 个 当代 机 
器 结合 需要 的 硬件 实现 这 种 通用 的 段 式 系统 。Multics 系统 已 经 出 现 几 十 年 了 ， 存 储 管理 的 发 展 趋势 将 很 可 
能 回 到 这 种 段 式 系统 上 。 

支持 Multics 系统 的 硬件 ， 如 Honeywell/GE 645 计算 机 中 有 3 个 段 寄存 器 (图 12-18): 

m 指向 段 表 的 STR。 

E 与 讨论 中 的 CBR 有 相同 作用 的 PBR, 

m 一 个 替换 SBR 和 DBR 的 链接 基地 址 寄存 器 LBR， 因 为 Multics 段 式 系统 中 对 静态 和 动态 数据 段 并 不 

加 以 区 分 。 

与 前 面 一 样 ，PBR 指向 当前 正在 执行 的 代 
码 段 的 描述 符 ; 然而 为 了 提供 段 的 共享 ， 在 通 az 
过 链接 段 (linkage segment) 形成 地 址 期 间 ， 编 
译 器 产生 一 个 模板 用 于 另 一 个 层次 的 间接 引用 。 
只 要 段 被 “知道 ”( 第 一 次 绑 定 到 地 址 空间 中 ) ， 
就 根据 编译 器 为 激活 共享 段 的 进程 所 生成 的 模 
板 构 造 一 个 独特 的 链接 段 。 在 图 12-18 中 ， 共 
享 段 被 称 为 “main” 并 且 链 接 段 称 为 “LS/ 
main”, Be PAB EE, H+ LBR 设 
置 指向 当前 链接 段 的 段 描 述 符 。 由 于 链接 段 是 
根据 编译 时 间 生 成 的 模板 创建 的 ， 因 而 它 与 被 
iF RIS RM RRS AK. Plan, WBE 
和 2 的 访问 引用 链接 段 中 的 偏 移 ， 而 不 是 段 表 
中 的 。 

假设 链接 段 指针 已 经 设置 好 。 当 执行 指令 
load [1, i] 时 ， 硬 件 会 使 用 LBR 找到 链接 段 ， 







main 








load<1, i> 






call<2,j> 





EF 


并 且 “1” 标 明 链 接 段 中 的 一 个 表 项 。 链 接 段 中 
的 表 项 “1” 指 向 访问 数据 所 在 段 表 的 段 描述 符 。 
链接 段 为 数据 访问 提供 了 一 级 间接 寻 址 机 制 。 

过 程 调用 指令 引起 PBR 和 LBR 的 改变 ， 因 
为 进程 移动 到 了 一 个 不 同 的 段 中 继续 执行 。 指 


图 12-18 Multics 段 式 机 制 


注 : Multics 使 用 STR. PBR 和 LBR 寄存 器 来 访问 描述 符 


段 、 过 程 段 和 链接 段 。 在 Multics 中 ， 每 个 段 名 是 链接 
段 的 一 个 偏 移 量 : 它们 可 以 灵活 地 将 目的 段 放置 在 描 
RARE (为 了 实现 共享 )。 





$ call [2, i] 引起 硬件 使 用 LBR 找到 链接 段 
中 的 表 项 和 指向 一 个 新 的 段 描述 符 的 指针 。 当 链接 被 切断 时 ， 系 统 会 将 LBR 改变 为 指向 由 LS/main 所 指向 
的 段 。 根 据 约 定 ， 链 接 段 中 的 第 一 个 表 项 指向 它 所属 的 过 程 段 ， 因 而 系统 会 从 链接 段 第 一 个 指针 得 到 被 调 
用 过 程 段 的 段 描述 符 ， 并 且 PBR 将 被 设置 成 新 的 过 程 段 描述 符 地 址 ， 它 指向 新 的 过 程 段 。 

链接 段 和 过 程 段 被 构造 成 允许 在 运行 时 刻 绑 定 符号 化 段 名 (参见 图 12-19) 。 当 编译 器 遇 到 一 个 形式 如 
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下 的 内 部 段 调用 时 : 


call [segmentName, offsetName] 


它 首 先 在 包含 符号 引用 segmentName 的 “外 符号 表 ” 中 建立 一 个 表 项 。( 外 符号 表 是 外 部 引用 表 在 Multics 
上 的 叫 法 ， 其 中 的 符号 是 在 运行 时 被 绑 定 的 。) 然后 ， 编 译 器 将 在 链接 段 中 增加 一 项 E， 它 包含 一 个 指向 
外 符号 表 表 项 的 指针 。 项 4 也 包含 一 个 自 陷 标志 ， 它 被 初始 化 为 在 第 一 次 外 部 符号 被 引用 时 产生 自 陷 。 最 
后 ,编译 器 产生 如 下 形式 的 代码 : 


call [ (* linkageSegment, k), offset] 
源 程序 : 


call <segmentName, offsetName> 






call *(LS,k),offset 


外 符号 表 
SegmentName 


图 12-19 Multics 地 址 绑 定 机 制 
注 : 绑 定 机 制 在 运行 时 将 符号 名 绑 定 到 段 偏 移 量 。 外 符号 表 保存 了 所 有 的 符号 名 ， 并 将 每 一 个 符号 映射 到 链接 段 
中 的 一 个 项 。 在 链接 段 中 ， 名 字 项 用 一 个 自 陷 标志 进行 编译 ， 这 样 当 项 第 一 次 被 引用 时 ， 将 名 字 绑 定 到 一 个 
存储 位 置 。 绑 定 机 制 然后 将 自 陷 标 志 移 除 ， 使 得 随后 的 访问 将 名 字 与 链接 地 址 项 相关 联 。 


现在 ， 当 调用 指令 执行 时 ， 它 将 间接 分 支 转移 到 链接 段 的 第 个 表 项 ， 当 第 一 次 执行 指令 时 ， 自 陷 标志 
将 被 设置 引起 一 个 自 陷 到 操作 系统 中 。 自 陷 处 理 程序 将 根据 链接 段 中 指针 找到 调用 过 程 的 外 符号 表 的 表 项 ， 
然后 系统 重新 从 外 符号 表 中 找到 符号 段 名 ， 从 辅 存 中 重新 获得 段 ， 将 一 个 描述 符 加 入 段 表 中 ， 并 且 修 改 链接 
段 ， 使 它 指 向 适当 的 段 描述 符 。 自 陷 标 志 被 清 位 以 防止 随后 的 缺 段 错误 。 对 符号 偏 移 可 以 类 似 地 进行 处 理 。 

Multics 段 式 系统 非常 复杂 ， 尽 管 它 所 提供 的 功能 比 当代 的 虚拟 存储 系统 更 为 通用 。 虽 然 这 种 解决 方案 
的 复杂 性 可 能 严重 影响 性 能 ， 但 如 果 专 门 设 计 有 硬件 来 支持 段 式 机 制 ， 可 以 运行 很 快 。 大 多 数 部 件 也 只 在 
有 跨 段 访问 时 才 使 用 这 种 机 制 。 
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12.7 存储 映射 文件 


有 些 文件 系统 提供 了 将 文件 的 内 容 直接 映射 到 虚拟 地 址 空间 中 的 功能 ， 这 样 ， 就 可 以 通过 访问 相应 的 
虚拟 地 址 来 读 写 文件 。 对 于 任何 的 存储 映射 文件 ， 文 件 管理 器 必须 将 read () 和 ite O 操作 传 给 虚拟 
主 存 管理 器 。 在 文件 被 映射 到 虚拟 地 址 X 后 ; 任何 对 虚拟 地 址 X+ i 的 访问 就 是 访问 文件 中 的 字 节 65,。 当 
访问 文件 中 的 内 容 时 ， 它 们 被 一 页 一 页 地 拷贝 到 主 存 中 ， 就 像 页 式 系统 中 的 其 他 页 一 样 被 处 理 。 当 一 个 文 
件 被 映射 到 虚拟 地 址 空间 中 时 ， 虚 拟 地 址 空间 的 相应 部 分 由 目标 文件 来 进行 备份 支持 ， 而 不 是 用 通常 的 存 
储 页 面 的 页 文件 。 

例如 ， 如 果 进 程 A 打开 了 一 个 64 KB 的 文件 并 将 它 映射 到 虚拟 地 址 区 间 0x20000000 到 0x2000FFFF, 
然后 就 可 以 通过 读 写 存储 地 址 0x20000000 来 读 写 文件 中 的 第 一 个 字 节 ， 或 者 可 以 通过 访问 0x2000000F 来 
访问 第 16 个 字 节 。 

在 Windows 中 ， 存 储 映 射 文件 机 制 为 可 执行 文件 提供 了 一 个 简单 的 加 载 器 。 在 创建 一 个 具有 4 GB 虚拟 
地 址 空间 的 进程 后 ， 系 统 检 查 .EXE 文件 的 尺寸 ,然后 在 虚拟 地 址 空间 中 预 留 空间 的 数量 (起 始 位 置 
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0x00400000)。 最 后 ， 系 统 注意 到 对 应 虚拟 地 址 空间 的 辅 存 是 .EXE 文件 ， 而 不 是 在 页 文件 中 。 通 过 在 加 载 时 
刻 确 定 DLL， 在 加 载 进 程 中 为 每 个 DLL 预 留 了 虚拟 地 址 空间 ，DEL 的 每 个 存储 备份 是 DELL 文件 而 不 是 页 文件 。 

下 面 是 存储 映射 文件 机 制 的 又 一 实用 功能 ( 见 图 12-20)。 因 为 信息 逻辑 上 是 作为 文件 名 来 访问 的 ， 多 
个 进程 可 以 同时 将 同一 文件 映射 到 各 自 的 虚拟 地 址 空间 中 去 。 现 在 很 定 进程 A 映射 一 个 64 KB 的 文件 到 位 
置 0x20000000 到 0x2000FFFF， 进 程 B 打开 相同 的 文件 并 将 它 映射 到 虚拟 地 址 0x30000000 到 0x3000FFFF, 
现在 进程 B 可 以 通过 在 位 置 0x30001234 写 人 信息 来 能 递 信 息 给 进程 A， 进 程 A 可 以 从 虚拟 地 址 
0x20001234 读 取 信息 。 


进程 A 虚 地 址 空间 文件 F 虚 地 址 进程 B 虚 地 址 空间 





图 12-20 存储 映射 文件 
注 : 存储 映射 文件 和 页 文件 的 处 理 非常 相似 ( 见 图 12-12)。 当 对 与 文件 相关 联 的 虚拟 地 址 进行 访问 时 ， 如 果 信 息 
不 在 主 存 中 ， 会 从 文件 中 加 载 信息 ， 如 果 信 息 在 主 存 中 ， 则 可 以 对 共享 页 进行 访问 。 


Windows 确保 了 主 存 的 写 操作 可 被 两 个 进程 看 
见 。 如 果 两 个 或 多 个 进程 打开 了 文件 ， 操 作 系统 会 知 
道 并 管理 两 个 进程 的 页 表 指 针 ， 这 样 它们 访问 的 是 磁 
盘 块 在 主 存 中 的 一 份 拷贝 。 例 如 ， 假 定 p 和 方 有 一 
个 打开 的 存储 映射 文件 ， 如 图 12-21 所 示 , 块 i 到 
i+ 3 被 缓存 到 了 主 存 中 ，zp; 使 用 块 ;+2 Mi+3, p 
使 用 块 i、i+1 和 i +2。 当 有 一 个 进程 改变 文件 块 
时 ， 其 他 的 进程 可 以 立即 看 到 改变 ， 因 为 改变 是 保存 
在 主 存 块 中 的 。 存 储 映射 文件 可 以 随时 换 出 。 然 而 ， 
如 果 进 程 使 用 的 页 保持 在 主 存 中 ， 性 能 会 更 好 一 些 。 

共享 存储 映射 文件 并 没有 为 临界 区 的 自动 管理 
提供 支持 。 如 果 存 储 映射 文件 被 一 组 线程 共享 ， 并 
且 有 一 个 线程 更 新 了 文件 ， 所 有 的 线程 需要 使 用 同 
步 机 制 ( 如 信号 量 ) 来 确保 临界 区 的 正常 使 用 。 





图 12-21 存储 映射 文件 中 的 共享 块 
12.8 小 结 注 : 这 幅 图 解释 了 不 同 的 B, 映射 R) 如 何 访问 主 


在 汉 . 诺 依 曼 计算 机 中 ， 虚拟 存 储 系统 是 主 存 。。” 存 中 的 共享 信息 块 
的 一 种 抽象 。 甚 至 在 物理 存储 器 开销 下 降 的 时 代 ， 计 算 机 也 还 花费 相当 大 的 资源 来 支持 虚拟 存储 空间 ， 目 
存 要 比分 配给 进程 的 物理 空间 大 很 多 。 当 代 软 件 严重 依赖 于 虚拟 存储 器 ， 来 支持 如 需要 巨大 存储 的 图 像 管 
理 这 样 的 应 用 程序 。 
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虚拟 存储 抽象 是 建立 在 运行 时 刻 进 行 地 址 绑 定 这 一 思想 基础 之 上 的 。 编 译 器 和 链接 编辑 器 生成 了 绝对 
模块 ， 传 统 上 的 加 载 程序 在 程序 执行 之 前 就 将 其 绑 定 到 物理 地 址 。 硬 件 设施 支持 存储 管理 器 自动 地 加 载 部 
分 虚拟 地 址 空间 到 主 存 中 ， 同 时 其 余 的 地 址 部 分 留 在 辅 存 中 。 

页 式 系 统 在 主 存 和 辅 存 之 间 传 送 固定 大 小 的 信息 块 。 由 于 页 和 页 帧 的 大 小 是 固定 的 ， 假 定 系 统 有 一 个 
有 效 的 表 检 查 机 制 ， 那 么 从 二 进 制 虚拟 地 址 到 相应 物理 地 址 间 的 转换 相对 简单 。 页 式 系 统 使 用 联想 存储 器 
来 实现 页 转换 表 。 

页 面 调度 系统 通过 规定 取 、 放 置 以 及 替换 策略 来 体现 其 特征 。 请 求 调 页 算法 使 用 的 取 策略 是 : 只 有 在 

一 个 页 被 访问 时 才 加 载 它 。 对 比 之 下 ， 预 取 策 略 在 它 检测 到 任 一 特定 缺 页 时 ， 可 能 加 载 几 个 页 。 大 多 数 的 
页 面 调度 系统 使 用 请 求 调 页 规则 。 

放置 策略 是 指 在 某 个 页 被 加 载 时 ， 确 定 存储 它 的 页 帧 。 在 苦 态 算法 中 ， 如 果 所 有 页 由 都 满 了 ， 需 要 蔡 
换 掉 存储 某 个 页 的 页 帧 。 有 几 种 不 同 的 替换 策略 ， 包 括 随机 替换 、Belady R, LRU, LFU 以 及 FIFO 算 
法 。 

LRU 和 LFU 是 栈 算法 ， 而 FIFO 和 随机 替换 算法 则 不 是 。LRU 是 已 经 在 商业 化 计算 机 中 占 主 流 的 静 
态 请 求 调 页 算法 ,但 由 于 需要 保存 记录 大 量 非 同 寻常 的 有 关 访 问 流 的 信息 ， 所 以 精确 地 实现 它 是 很 困难 
的 。 在 页 转换 表 中 ， 可 以 使 用 访问 位 来 近似 实现 LRU 策略 ， 访 问 位 数 越 多 ， 近 似 实现 的 性 能 就 会 越 好 。 

动态 分 配 页 式 系统 试图 根据 进程 的 需要 ， 来 调整 分 配给 它 的 页 帧 数目 。 这 可 以 通过 在 访问 流 的 一 个 窗 
口上 用 LRU 策略 来 实现 ， 如 同 在 驻 留 集 算 法 中 做 的 那样 。 

段 式 是 页 式 的 一 种 替代 方法 。 段 式 与 页 式 的 不 同 之 处 在 于 ， 主 存 与 辅 存 之 间 传 送 的 信息 单位 是 变化 
的 ， 程 序 员 明 确 知道 段 的 大 小 。 将 一 个 段 虚 拟 地 址 转换 到 物理 地 址 要 比 页 式 虚 拟 地 址 的 转换 复杂 得 多 ， 段 
和 偏 移 可 能 都 不 得 不 在 运行 时 刻 被 转换 。Multics (尽管 已 经 出 现 25 ET) 在 商业 化 实现 中 仍然 是 最 为 复 
杂 的 一 种 段 式 系统 。 

段 式 在 主 存 和 辅 存 之 间 的 关系 取决 于 文件 系统 的 存在 ， 因为 段 是 像 文件 一 一 样 被 存储 在 辅 存 中 的 。 下 一 
章 中 将 详细 讨论 文件 管理 器 。 


12.9 习题 


1. 为 什么 在 二 进 制 机 器 中 ， 虚 拟 地 址 空间 中 页 的 大 小 、 页 的 数目 以 及 在 物理 地 址 空间 中 页 帧 的 数 且 
都 是 2 WHE? 

2. 假设 一 个 页 式 系统 中 有 2° “的 虚拟 地 址 ， 并 且 主 存 中 有 2*** 个 单元 可 以 分 配 使 用 ， 其 中 g、h、 
都 是 整数 。 那 么 虚拟 和 物理 地 址 的 大 小 所 暗示 的 系统 页 大 小 是 多 少 ? 需要 多 少 位 来 存储 一 个 虚拟 
地 址 ? 

3. 假设 一 个 计算 环境 中 页 的 大 小 为 1 KB， 那 么 下 列 各 式 中 的 页 号 和 页 偏 移 是 什么 ? 

a. 899 (十 进 制 ) 

b. 23456 (十 进 制 ) 

c. 0x3F244 (十 六 进 制 ) 
d. 0x0017C (十 六 进 制 ) 

4. 在 一 个 假设 的 Linux 系统 中 ， 每 个 虚拟 地 址 是 32 位 ， 页 大 小 用 10 位 表示 ， 页 表 有 256 项 ， 页 中 间 
目录 有 32 项， 页 目录 有 256 项 。 使 用 本 章 描述 的 Linux 模型 ， 对 下 面 的 每 个 虚拟 地 址 ， 页 目录 项 、 
页 中 间 目 录 项 、 页 表 项 和 页 偏 移 量 各 为 多 少 ? 

a. 0x12345678 
b. 0x456789ab 
c. Oxba987654 
d. 0x87654321 

5. 当代 计算 机 中 经 常 有 超过 100MB 的 主 存 。 假 设 页 大 小 为 2KB， 那 么 为 了 实现 存储 器 的 一 个 页 表 ， 
联想 存储 器 中 需要 有 多 少 个 条 目 ? 

6. 举 出 一 个 例子 来 解释 访问 一 个 名 字 空 间 、 虚 拟 地 址 空间 以 及 物理 地 址 空间 中 变量 的 不 同 表示 。 使 
用 你 的 例子 来 展示 如 何 从 符号 名 字 中 得 到 虚拟 地 址 ， 如 何 从 虚拟 地 址 中 得 到 物理 地 址 。 
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7. 在 现代 计算 机 系统 中 ,什么 因素 影响 虚拟 地 址 空间 的 大 小 ? 在 你 的 回答 中 ， 请 考虑 一 下 存储 映射 
部 件 ， 编 译 技 术 ， 以 及 指令 格式 等 方面 。 
8. 在 现代 计算 机 系统 中 ， 什 么 因素 影响 物理 地 址 空间 的 大 小 (考虑 硬件 中 的 各 个 部 分 )? 
9. 一 所 著名 大 学 的 研究 人 员 发 明了 一 种 新 的 静态 请 求 调 页 算法 ， 称 为 将 来 最 少 频 度 使 用 策略 (或 FL- 
FU)， 所 选 的 替换 页 当前 已 被 加 载 ， 但 是 是 将 来 使 用 频 度 最 少 的 页 (研究 人 员 并 没有 提供 FLFU 的 
实现 )。 为 FLFU 调 页 算法 写 一 个 形式 化 的 描述 (以 12.4 节 所 使 用 的 形式 )。 
10. 著名 大 学 的 教授 Jabberwocky 了 解 到 上 一 题 介绍 的 FLFU 算法 ， 并 出 版 了 一 篇 论文 来 证 明 FLFU 
是 最 优 的 。 对 Jabberwocky 的 结论 说 说 你 的 看 法 。 
11. 假设 一 个 页 访问 流 为 : R = 324342234567765456721 
a. 假定 分 配 有 3 个 页 帧 ， 并 且 初 始 时 主 存 没 有 加 载 任 何 页 。 在 Beady 最 优 算法 下 ， 给 定 的 访问 流 
会 发 生 多 少 次 缺 页 错误 ? 

b. 假定 分 配 有 3 个 页 帜 ,并 且 初 始 时 主 存 没有 加 载 任何 页 。 在 LRU 算法 下 ， 给 定 的 访问 流 会 发 
生 多 少 次 缺 页 错误 ? 

c. 假定 分 配 有 3 个 页 帧 ， 并 且 初 始 时 主 存 没 有 加 载 任何 页 。 在 FIFO 算法 下 ， 给 定 的 访问 流 会 发 
生 多 少 次 缺 页 错误 ? 

d. 假定 窗口 大 小 为 6， 并 且 初 始 时 主 存 没 有 加 载 任何 页 。 在 驻 留 集 算法 下 ， 给 定 的 访问 流 会 发 生 
多 少 次 缺 页 错误 ? 

e. 假定 窗口 大 小 为 6， 并 且 初 始 时 主 存 没 有 加 载 任何 页 。 在 给 定 访问 流下 ， 在 整个 访问 流 已 经 被 

. 处 理 后 ， 驻 留 集 的 大 小 是 多 少 ? 

12. 假设 一 个 页 访问 流 为 : R = 031415160526750006666。 针 对 这 个 访问 流 再 回答 第 11 
题 中 的 a~e 

13. 描述 具有 下 列 特性 的 程序 ， 

a. 小 代码 局 部 集 和 小 数据 局 部 集 。 
b. 小 代码 局 部 集 和 大 数据 局 部 集 。 
c. 大 代码 局 部 集 和 小 数据 局 部 集 。 
d. 大 代码 局 部 集 和 大 数据 局 部 集 。 

14. 假设 硬件 设计 中 结合 有 3 个 访问 位 ， 而 不 是 在 12.3 节 中 所 描述 的 LRU 实现 中 只 有 一 个 访问 位 。 
解释 一 下 如 何 使 用 3 个 访问 位 ， 使 得 比 使 用 一 个 访问 位 能 够 获得 更 好 的 LRU 近似 实现 。 

15. 缺 页 错误 频率 算法 与 使 用 窗口 大 小 为 w 时 的 驻 留 集 估计 方法 比 有 什么 优点 ? 它 的 缺点 又 是 什么 ? 

16. 构造 一 个 简单 的 访问 流 ， 来 说 明 在 分 配 3 和 4 SMTA Belady 奇异 现象 。 

17. 在 一 个 页 式 系 统 中 ， 对 程序 员 来 说 页 边界 是 不 可 见 的 。 解 释 一 下 在 静态 页 面 调度 系统 中 ， 当 分 配 
主 存 数 太 小 时 ， 一 个 循环 是 如 何 可 能 会 引起 拌 动 的 。 

18. 为 什么 在 段 式 系统 中 ， 局 部 性 不 是 一 个 要 考虑 的 问题 ? 

19. 解释 一 下 有 可 能 构建 没有 文件 系统 的 、 使 用 全 段 式 的 操作 系统 吗 。 

20. 假设 两 个 进程 共享 一 个 主 程序 段 ， 但 每 个 进程 都 有 自己 私有 的 、 可 从 主 段 中 进行 调用 的 过 程 实 
现 ， 以 及 私有 的 数据 段 。 画 一 个 类 似 图 12-18 的 图 ， 来 说 明 段 寄存 器 和 段 应 该 如 何 设置 来 适应 这 种 
情形 。 


实验 12.1: 存储 映射 文件 


(| 这 个 练习 可 以 在 Windows NT/2000/XP 系统 上 解决 。 | 

本 练习 是 使 用 存储 映射 文件 来 在 一 组 进程 间 共 享 信息 。 源 进程 和 接收 进程 读 写 传统 的 基于 磁盘 的 文 
件 ， 加 密 和 解密 进程 设计 用 来 过 滤 源 进程 传递 的 信息 和 接收 进程 接收 的 信息 。 图 12-22 显示 了 四 个 进程 相 
互通 信 的 方式 。 源 进程 从 普通 的 文件 中 读 取 字 节 流 ， 然 后 将 输出 写 到 第 一 个 存储 映射 文件 。 加 密 进程 从 存 
储 映射 文件 中 读 取 信息 ， 对 字 节 流 中 的 每 个 字 节 进行 加 密 ， 然 后 将 其 写 到 有 名 管道 中 。 解 密 进 程 从 管道 中 
读 取 加 密 的 字 节 ， 对 它们 进行 译 码 ， 然 后 将 它们 写 到 第 二 个 存储 映射 文件 中 。 接 收 进程 从 第 二 个 存储 映射 
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文件 中 读 取 数据 ， 然 后 将 数据 写 到 第 二 个 普通 文件 中 。 





图 12-22 进程 配置 
注 : 源 进 程 从 普通 的 文件 中 读 取 字 节 流 ， 然 后 将 输出 写 到 第 一 个 存储 映射 文件 。 加 密 进程 从 存储 映射 文件 中 读 取信 
息 ， 对 字 节 流 中 的 每 个 字 节 进行 加 密 ， 然 后 将 其 写 到 有 名 管道 中 。 解 密 进程 从 管道 中 读 取 加 密 的 字 节 ， 对 它们 
进行 译 码 ， 然 后 将 它们 写 到 第 二 个 存储 映射 文件 中 。 接 收 进程 从 第 二 个 存储 映射 文件 中 读 取 数据 ， 然 后 将 数据 
写 到 第 二 个 普通 文件 中 。 


加 密 算法 可 能 是 非常 简单 的 ， 例如， 将 大 写字 母 转化 为 小 写字 母 ， 反 之 亦 然 。 解 密 算法 是 加 密 算法 的 逆 
过 程 。 在 加 密 进 程 和 解密 进程 问 实际 上 没有 必要 使 用 有 名 管道 ， 这 仅仅 是 为 了 练习 使 用 进程 间 通 信 机 制 。 
为 了 看 见 这 个 配置 的 行为 轨迹 ， 你 应 该 在 每 个 模块 中 使 用 一 个 延迟 。 


背景 


因为 进程 内 的 线程 共用 进程 的 地 址 空间 ， 所 有 的 线程 隐 式 地 共享 所 有 的 信息 。Windows NT/2000/XP ( 像 所 
有 的 现代 操作 系统 一 样 ) 为 每 个 进程 的 地 址 空间 提供 了 保护 屏障 ， 这 意味 着 在 一 个 地 址 空间 内 运行 的 线程 不 能 
和 不 同 进程 内 的 线程 共享 信息 ， 因 为 通常 情况 下 它们 都 不 能 对 其 他 进程 的 地 址 空间 进行 读 写 。 为 不 同 进程 地 址 
空间 内 的 共享 提供 机 制 是 操作 系统 的 一 个 传统 问题 。 在 9.3 节 描 述 的 IPC 机 制 说 明了 完成 这 种 任务 的 一 种 方式 。 
然而 ， 对 单个 机 器 上 的 进程 间 共 享 信息 来 说 ， 存 储 映 射 文件 是 一 种 更 好 的 机 制 。Windows NT/2000/XP 设计 成 让 
存储 映射 文件 在 操作 系统 的 一 个 较 低层 来 实现 ， 即 由 虚拟 存储 管理 器 实现 ， 这 是 非常 有 效 的 。 
存储 映射 文件 函数 
为 了 使 用 存储 映射 文件 ， 你 必须 : 
m 获得 所 创建 或 打开 文件 的 句柄 。 
m 为 文件 预 留 虚 拟 地 址 。 
E 在 文件 和 虚拟 地 址 空间 之 间 建 立 一 个 映射 。 
文件 句柄 使 用 CreateFile () 或 OpenFile () 来 获得 。CreateFile () 函数 在 第 2 章 进行 了 描述 。 当 
它 用 于 存储 映射 文件 时 ， 使 用 通常 的 参数 来 建立 或 打开 文件 。 
在 一 个 文件 被 打开 后 ， 文 件 映射 对 象 (在 文档 中 称 为 段 对 象 ) 存储 了 映射 信息 。 这 是 使 用 Create- 
FileMapping () 来 创建 的 : 
HANDLE CreateFileMapping( 
HANDLE hfile, 
LPSECURITY_ATTRIBUTE lpFileMappingAttributes, 
DWORD flProtect, 
DWORD dwMaximumSizeHigh, 
DWORD dwMaximumSizeLow, 
LPCTSTR lpName 
3 
hf ile 参数 是 CreateFile () (BK OpenFile ()) 返回 的 句柄 。1pFileMappingAttributes 参数 是 SECURI- 
TY _ ATTRIBUTE 数据 结构 的 指针 ， 仅 当 句 柄 将 被 继承 时 使 用 。flProtect 参数 是 PAGE _ READONLY, PAGE _ 
READWRITE 或 PAGE _ WRITECOPY 中 的 一 个 。 该 参数 的 值 必须 与 hfile 句柄 中 的 特权 相 兼 容 。 只 读 访 问 意味 着 
调用 进程 仅仅 对 持 有 文件 的 页 的 区 域 进行 读 操作 。 另 一 个 标志 可 以 与 基本 保护 参数 进行 “或 ”操作 ， 用 来 
预 留用 于 映射 的 虚拟 地 址 。 被 映射 的 空间 最 大 值 是 64 位 值 ， 所 以 它 的 二 等 分 是 使 用 下 面 两 个 参数 来 传递 
i): dwMaximumSizeHigh 和 dwMaximumSizeLow。 最 后 映射 对 象 可 以 使 用 名 字 lpName 或 使 用 NULL。 如 果 lp- 
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Name 是 NULL， 映 射 对 象 被 创建 时 没有 名 字 且 通常 情况 下 不 能 共享 。 如 果 lpName 被 定义 并 且 已 经 存在 了 ， 
则 会 请 求 使 用 存在 的 有 名 映射 对 象 。 如 果 lpName 被 定义 了 ,但 它 并 不 存在 ， 则 它 被 创建 。 

由 CreateFileMapping () 调用 返回 的 句柄 可 像 其 他 的 句柄 一 样 被 使 用 : 它 可 被 子 进程 继承 ， 并 可 使 
用 DuplicateHandle () 复制 到 另 一 个 地 址 空间 中 。openFileMapping () 函数 可 用 于 一 个 有 名 的 映射 对 象 : 


HANDLE OpenFileMapping( 
DWORD dwDesiredAccess, 
BOOL bInheritHandle, 
LPCTSTR lpName 
ye ， 
一 且 建 立 映射 对 象 ， 则 建立 了 地 址 空间 和 映射 对 象 ， 但 是 文件 内 容 事 实 上 并 没有 被 上 映射 到 进程 的 地 址 
空间 中 。 可 以 使 用 下 面 的 函数 来 完成 ， 


LPVOID MapViewOfFile( 
HANDLE hFileMappingObject, 
DWORD dwDesiredAccess, 
DWORD dwFileOffsetHigh, 
DWORD dwFileOffsetLow, 
DWORD dwNumberOfBytesToMap 

}; 

hFileMappingObject 参数 是 由 CreateFileMapping () 调用 返回 的 文件 映射 对 象 的 句柄 ，dwDesiredAc- 
cess 参数 指定 了 映射 对 象 用 来 访问 数据 的 方式 ， 它 与 CreateFileMapping () 使 用 的 hiProtect 参数 兼容 : 

B FILE _ MRP _ WRITE。 经 由 映射 对 象 的 读 或 写 是 可 接受 的 。 

B FILE MAP _ READ。 线 程 使 用 映射 对 象 仅 能 对 存储 映射 文件 进行 读 操作 。 

M FILE MAP ALL ACCESS, 与 FILE MAP WRITE 相同 。 

E FILE MAP _ COPY。 这 个 值 使 用 了 虚拟 存储 的 写 时 复制 的 特征 。 如 果 映 射 对 象 创建 时 带 PAGE _ WRITE- 

CoPY， 并 且 在 上 述 映 射 窗口 时 带 FILE MAP Copy Br, 进程 将 有 一 一 个 文件 的 窗口 ， 但 是 对 文件 的 
写 并 不 进入 原始 数据 文件 。 

你 可 以 将 整个 文件 映射 到 地 址 空间 中 ,或 者 只 是 文件 的 一 个 子 集 一 一 称 为 文件 的 窗口 (view)。64 位 
的 文件 偏 移 量 (两 个 DWORD 参数 ) 指定 了 映射 文件 开始 处 的 指针 。dwNumberOfBytesToMap 指定 了 窗口 中 的 
字 节 数 。 文 件 指针 必须 是 分 配 粒度 的 倍数 。 该 函数 选择 地 址 空间 中 一 个 可 接受 的 位 置 来 映射 文件 ， 然 后 返 
回 位 置地 址 。 如 果 你 想 要 手工 选择 这 个 位 置 ， 使 用 MapViewOfFilekx ()， 它 有 第 六 个 参数 LPVOID lp 
BaseAddress， 用 来 设置 文件 映射 开始 处 的 虚拟 地 址 。lpBaseAddress 必须 是 分 配 粒度 的 倍数 。 

文件 一 致 性 指 的 是 打开 文件 的 每 个 进程 看 见 文件 中 的 相同 信息 的 情形 ， 当 信息 拷贝 被 送 到 系统 的 不 同 
部 分 时 ， 确 保 一 致 性 问题 就 变 得 困难 了 。 如 果 改 变 了 一 个 拷贝 ， 其 他 的 拷贝 被 更 新 之 前 有 一 个 延迟 时 间 。 
如 果 两 个 进程 使 用 相同 的 映射 对 象 ， 或 使 用 从 另 一 个 进程 继承 过 来 的 映射 对 象 ，Windows NT/2000/XP 确 
保 两 个 进程 一 直 看 见 相同 的 文件 内 容 。 内 核 并 不 保持 有 加 载 到 主 存 中 文件 内 容 页 的 多 份 拷贝 ， 相 反 ， 两 个 
进程 映射 到 包含 目标 数据 的 同一 页 上 。 

如 果 用 上 述 方法 使 用 存储 映射 文件 ， 第 三 个 进程 将 这 个 文件 作为 一 个 普通 的 文件 来 打开 ， 第 三 个 进程 
执行 的 ReadFile () #ilWriteFile () 操作 与 文件 的 存储 映射 窗口 不 能 保证 一 致 。 出 现 这 种 情况 的 原因 是 
读 写 文件 操作 使 用 传统 的 文件 缓冲 和 磁盘 ID， 这 意味 着 引入 了 文件 中 信息 的 两 份 拷贝 。Windows NT/ 
2000/XP 并 不 确保 这 两 份 拷贝 一 直 是 一 样 的 。. 

最 后 ， 如 果 你 映射 了 文件 的 窗口 ， 当 你 完成 对 它 的 使 用 时 有 必要 对 它 解除 映射 。 

BOOL UnmapViewOfFile ( 
LPCVOID lpBaseAddress 
); 


lpBaseAddress 参数 是 窗口 开始 处 的 虚拟 地 址 ， 也 就 是 MapViewOfFile () 函数 的 返回 值 。 
解决 问题 
这 个 练习 包含 了 相对 多 的 代码 ， 编 写 完 所 有 的 代码 并 让 它们 在 一 起 工作 对 你 来 说 可 能 是 一 个 挑战 。 这 
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个 解决 方案 使 用 第 五 个 进程 来 产生 作业 中 指定 的 四 个 进程 。 第 五 个 程序 的 代码 框架 如 下 : 


// The main program establishes the shared information used 
// by the source, encrypt, decrypt, and sink processes 
int main(int argc, char *argv[)}) { 
// Create the pipe from encrypt to decrypt 
// Create producer process 
if(!CreateProcess(...)} { 
fprintf(stderr, “...", GetLastError()) 
getc(stdin); 
ExitProcess(1); 


Sleep(500); // Give producer a chance to run . 


// Create encryption process 
if(!CreateProcess(...)) { 
fprintf(stderr, “...", GetLastError()) 
getc(stdin); 
ExitProcess(1); 


} 
Sleep(500); // Give Encrypt a chance to run 


// Create decryption process 
if(!CreateProcess(...}) { 
fprintf(stderr, “...”, GetLastError()) 


getc(stdin); 
ExitProcess(1); 


} 
Sleep(500); // Give Decrypt a chance to run 


// Create consumer process 
if(!CreateProcess(...))} { 
fprintf(stderr, “...", GetLastError(}} 
getc(stdin); 
ExitProcess(1); 
} 
Sleep(500); // Give consumer a chance to run 


// Wait for producer, encrypt, decrypt & consumer to die 


} 


源 程序 的 组 织 相对 来 说 比较 简单 ， 其 他 的 三 个 程序 也 与 它 相似 。 下 面 的 代码 框架 可 以 使 你 开始 着 
手 设计 完全 的 解决 方案 。 ° 


/* The source process reads information from the source 
*file then uses a memory-mapped file to transfer 
* the information to the encrypt process. 

*/ 
int main (int argc, char *argv[]} { 
// Open the source file 
sourceFile = CreateFile (...) 
if(sourceFile == INVALID_HANDLE VALUE) { 
fprintf(stderr, GetLastError()); 
getc(stdin); 
ExitProcess(1); 


} 


// Open the memory-mapped file and map it 
peMMFFile = CreateFile (...); 


if(peMMFFile == INVALID_HANDLE VALUE) { 
fprintf(stderr, “...", GetLastError() 
getc(stdin); 


ExitProcess(1); 
} 
// Create the mapping object 
peMMFMap = CreateFileMapping(...); 





318 B12 








if(peMMFMap == NULL) { 
fprintf(stderr, “...”, GetLastError()); 
getc(stdin); 
ExitProcess(1); 
} 
// Create the view 
baseAddr = (PBYTE) MapViewOfFile(...); 


if(baseAddr == NULL) { 
fprintf(stderr, “...", GetLastError() 
getc({stdin); 
ExitProcess(1); 

} 

srand(P_RAND_ SEED); // Set random# seed 

// Main loop to process the source file 
while(...) { 


// To exercise synch mechanisms 
Sleep(rand()ttimeToProduce) ; 
// Write information to memory-mapped file 
// by writing to the baseAddr 
} 
// Terminate 
} 


你 将 与 写 文件 的 每 个 线程 共享 存储 映射 文件 。 这 意味 着 正确 的 解决 方案 必须 采用 同步 机 制 进行 对 临界 
区 的 访问 。 


第 13 章 文件 管理 


文件 是 一 种 操作 系统 机 制 ， 用 于 从 一 个 会 话 中 保存 信息 到 另 一 个 会 话 中 。 文 件 也 被 用 作 永久 性 存档 信 
息 的 容器 。 语 言 转换 系统 使 用 文件 系统 来 存储 可 重 定位 的 、 绝 对 的 及 可 执行 的 程序 。 段 式 虚拟 存储 管理 器 
依赖 文件 系统 来 存储 段 。 程 序 员 依赖 文件 系统 来 简化 对 保存 数据 集合 的 存储 设备 的 使 用 。 单 个 的 电子 邮件 
消息 被 作为 一 个 文件 进行 传送 。 一 个 超 文本 网 页 也 是 一 个 文件 。 

本 章 的 目标 是 讨论 指导 文件 管理 设计 的 概念 ， 包 括 系统 可 能 支持 的 文件 类 型 的 描述 和 文件 系统 实现 的 
描述。 最 后 ， 讨 论 了 如 何 增加 目录 功能 来 允许 用 户 管理 他 们 自己 的 文件 。 


13.1 概述 


文件 是 最 有 意义 的 操作 系统 抽象 之 一 〈 构 建 在 设备 抽象 之 上 )。 从 计算 的 早期 年 代 以 来 ， 程 序 员 就 使 用 
文件 在 存储 设备 上 保存 信息 。 甚 至 在 20 世纪 80 年 代 后 期 ，MS-DOS 提供 的 抽象 主要 是 文件 抽象 。 文 件 至 今 
仍然 是 计算 的 支撑 : 它们 用 来 将 大 量 信息 (如 HTML 网 页 ) 从 一 个 应 用 传送 到 另 一 个 应 用 CL 13-1), B 
辑 上 ， 网 页 是 用 HTML 编辑 器 来 创建 的 ，Web 浏览 器 可 以 对 它们 进行 解释 。 实 际 上 ， 在 建立 网 页 时 ， 它 们 
被 写 到 文件 中 。 文 件 然后 可 以 写 到 存储 设备 中 (或 经 由 网 络 拷贝 )。 文件 消费 者 从 存储 设备 中 (或 从 网 络 中 ) 
得 到 文件 ， 然 后 将 它 的 内 容 读 人 进程 地 址 空间 中 。 文 件 管理 器 建立 了 抽象 环境 ， 应 用 不 必 关 注 持久 存储 或 网 
络 传输 的 细节 。 当 另 一 个 应 用 想 要 得 到 信息 时 ， 它 仅仅 打开 文件 ， 读 取信 息 ， 随 后 关闭 它 。 


<head> 


</head> 
<body> 







</body> 





和 结构 化 信息 
m 可 被 应 用 读 取 
。 可 访问 性 
。 协 议 


a 共享 设备 


图 13-1 传输 HTML 信息 
TE: 这 幅 图 解释 了 文件 抽象 和 它 的 实现 。 在 这 个 抽象 中 ， 信 息 是 作为 结构 化 的 数据 存储 在 文件 中 的 (在 HIML 中 ， 
结构 是 由 标记 来 定义 的 )。 实 际 上 ， 信 息 被 转换 成 连续 编 址 的 字 节 流 ， 然 后 被 存储 在 面向 块 的 存储 设备 中 。 当 
用 户 准备 使 用 信息 时 ， 可 从 文件 管理 器 得 到 字 节 流 ， 然 后 Web 浏览 器 对 标记 进行 解释 并 恢复 数据 的 结构 。 


在 1960 年 之 前 ,使 用 计算 机 的 动机 通常 是 执行 高 速 计算 。 大 多 数 应 用 是 计算 密集 型 过 程 ， 用 来 预测 
导弹 的 轨道 、 解 系统 方程 或 执行 其 他 的 科学 计算 。 直 到 1960 年 ,发 生 了 巨大 的 变化 ， 人 们 开始 意识 到 计 
算 机 实际 上 是 十 分 强大 的 信息 存储 和 操作 工具 。 计 算 机 不 仅仅 用 来 执行 高 速 计算 ， 也 用 来 存储 大 量 的 信 
息 ， 处 理 信息 并 产生 新 形式 的 信息 ， 并 对 它 进行 保存 。 
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在 那 时 发 展 了 两 种 不 同类 型 的 计算 机 : 用 于 科学 计算 的 计算 机 和 商业 (或 数据 处 理 ) 计算 机 。 用 于 科 
学 计算 的 计算 机 持续 着 重 于 高 速 计算 ， 但 是 新 的 商业 计算 机 设计 目的 是 支持 IMO 密集 型 应 用 ， 如 薪水 册 、 
存货 控制 、 制 作 广告 和 决策 支持 。 当 然 ， 这 两 种 不 同 的 应 用 领域 影响 了 操作 系统 的 类 型 ， 商 业 计算 机 上 的 
操作 系统 以 前 强调 计算 密集 型 应 用 (如 优化 CPU 使 用 ) ， 现 在 转 到 更 强调 1/ 〇 密集 型 应 用 上 来 〈 如 能 够 将 
CPU 计算 与 输入 和 输出 操作 交 选 )。 在 20 世纪 60 年 代 到 70 年 代 间 ， 两 个 阵营 都 发 展 了 它们 自己 的 计算 
机 、 操 作 系统 、 程 序 设计 语言 和 程序 员 。 在 科学 计算 和 商业 计算 方面 都 是 专家 的 程序 员 很 少 。 

在 20 世纪 80 年 代 ， 科 学 计算 和 商业 计算 间 的 区 别 变 得 模糊 了 : 对 科学 计算 感 兴趣 的 人 们 开始 意识 
到 ,正在 出 现 的 许多 应 用 是 1/ 〇 密集 型 的 。 例 如 ， 预 测 天 气 的 程序 需要 读 取 大 量 的 信息 ， 这 些 信息 描述 了 
世界 各 地 的 天 气 ， 并 需要 解 大 量 的 偏 微 分 方程 ， 所 以 它 可 以 预测 明天 的 天 气 。 同 时 ， 商 业 计 算 领 域 出 现 了 
大 量 的 计算 密集 型 应 用 。 例 如 ， 人 们 开始 意识 到 可 以 利用 描述 股票 市 场 行为 的 所 有 数据 并 能 使 用 先进 的 数 
学 程序 来 预测 市 场 行为 。 到 1990 年 ， 人 们 开始 意识 到 相同 的 硬件 和 操作 系统 可 用 来 支持 任何 一 种 应 用 ， 
所 以 我 们 看 到 了 这 两 种 阵营 的 逐渐 融合 。 

在 所 有 的 现代 计算 机 系统 中 ， 文 件 是 信息 管理 的 技术 基础 (尽管 数据 库 正 在 逐渐 取代 文件 抽象 )。 尽 
管 商 业 应 用 领域 比 科 学 应 用 领域 更 多 地 依赖 于 数据 中 的 结构 ， 最 后 它们 都 取决 于 文件 系统 的 基本 行为 。 从 
应 用 程序 员 的 观点 来 看 〈 见 第 2 章 ), 文件 是 辅 存 设备 的 基本 抽象 (如 磁带 设备 或 磁盘 设备 )。 每 个 文件 是 


存储 在 设备 上 的 有 名 数据 集合 。 
文件 管理 是 操作 系统 的 一 部 分 ， 它 用 来 实 

现 文件 抽象 、 由 文件 组 成 的 目录 及 由 大 量 目录 

组 成 的 文件 系统 ( 见 图 13-2)。 本 章 介 绍 了 有 / 

关 文 件 管理 器 的 设计 和 实现 问题 (针对 科学 和 

商业 应 用 领域 )。 我 们 首先 研究 文件 以 及 它们 mount () WriteFile() 

的 提 作 ， 然 后 夺目 录 ， 最 后 是 文件 系统 。 O Covent) ee neaarsre( 

13 2 文件 read() SetFilePointer () 


绝 大 多 数 的 应 用 程序 都 是 从 一 个 或 多 个 文件 
中 读 取 信息 ， 处 理 数据 ， 然 后 把 结果 写 回 一 个 或 
多 个 文件 中 。 例 如 ， 一 个 帐号 付费 的 程序 读 取 一 
个 包含 有 发 票 的 文件 ， 以 及 另 一 个 包含 有 购买 订 
单 的 文件 ， 结 合 这 些 数据 ， 然 后 打印 一 张 支票 并 
且 写 到 一 个 描述 支出 过 程 的 文件 。 编 译 程序 读 取 
一 个 源 程序 文件 ， 将 程序 转换 成 机 器 代码 形式 ， 
然 局 号 一 个 可 重 定位 文件 以 及 一 个 错误 报告 广 R RAME AEREI 充 

> T h 统 的 最 后 一 个 -È 
件 。 优 化 程序 从 文件 中 读 取 地 址 空间 的 描述 来 进 。 分 使 用 了 设备 管理 器 ， 因 为 它 要 读 写 存储 设备 。 它 提供 
行 分 析 ， 查 找 全 局 最 小 和 /或 者 最 大 限度 的 空间 ， 了 有 名字 节 流 抽 象 让 应 用 程序 操作 。 
然后 把 结果 写 到 一 个 输出 文件 中 。 

该 操作 模型 是 如 此 普及 ， 以 致 于 可 以 很 容易 地 建立 到 C 程序 设计 模型 中 。 例 如 ,在 C 运行 时 环境 中 ， 
当 进 程 创建 时 CG UNIX 或 Windows 控制 台 应 用 ) ， 进 程 默认 访问 下 面 的 三 个 文件 

E stdin 作为 输入 设备 的 文件 抽象 

E stdout 作为 通常 的 输出 设备 的 抽象 

E stderr 作为 一 个 错误 日 志文 件 

(在 C 运 行 时 系统 中 ，stdin、stdout 以 及 stderr 的 默认 对 象 是 通信 设备 ， 而 不 是 存储 设备 ， 尽 管 相 
应 的 设备 是 使 用 如 第 5 章 中 所 说 明 的 文件 接口 进行 访问 的 。) 这 种 计算 观点 的 一 种 极端 表示 是 ， 程序 只 是 
定义 过 滤器 的 手段 ， 用 于 读 取 一 个 文件 ， 将 数据 转换 到 某 种 其 他 的 形式 ， 然 后 把 结果 写 人 另 一 个 文件 。 事 
实 上 ， 这 是 用 来 描述 UNIX 应 用 的 早期 程序 设计 范例 : 它们 仅仅 是 过 滤器 ， 将 一 个 文件 的 内 容 转换 成 存储 
在 另 一 个 文件 中 的 信息 [Kernighan and Pike, 1984]. 

通常 而 言 ， 文 件 是 一 个 信息 集合 的 容器 。 除 了 提供 抽象 外 ， 文 件 管理 器 提供 了 一 种 保护 机 制 ， 人 允许 用 








be 
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户 管理 信息 如 何 被 其 他 的 用 户 访问 。 文 件 保 护 是 文件 的 基本 属性 ， 因 为 它 允 许 不 同 的 用 户 在 一 个 共享 的 计 
算 机 中 存储 他 们 自己 的 信息 ， 同 时 信息 可 以 被 保密 。 

那么 相对 于 虚拟 存储 器 ， 文 件 管理 器 所 提供 的 功能 如 何 呢 ? 

u 文件 管理 器 和 虚拟 存储 器 的 目标 不 同 。 虚 拟 存储 器 的 实现 目标 是 在 可 执行 主 存 中 支持 一 个 非常 大 的 
地 址 空间 。 在 辅 存 中 创建 和 维持 进程 的 全 部 地 址 空间 映像 ， 然 后 它 的 一 部 分 根据 需要 可 以 被 加 载 到 
主 存 中 。 文 件 管理 的 目标 是 为 从 存储 设备 上 读 取信 息 (或 将 信息 写 到 存储 设备 上 ) 提供 机 制 。 页 式 
虚拟 存储 管理 器 提供 了 一 种 辅 存 的 抽象 ， 而 文件 提供 了 另 一 种 抽象 。 段 式 虚 存 和 文件 管理 器 共存 ， 
因为 段 逻辑 上 与 文件 并 不 一 致 。 在 Windows NT/2000/XP 中 ， 存 储 映射 文件 结合 了 文件 和 页 式 虚 存 
的 概念 (参见 12.7 节 )， 人 允许 这 两 种 概念 的 宽泛 围 使 用 。 

a 文件 抽象 是 比 虚 拟 存 储 器 技术 提前 几 年 出 现 的 ， 到 虚拟 存储 器 被 用 于 访问 辅 存 中 的 大 地 址 空间 时 ， 
文件 抽象 技术 已 经 十 分 成 熟 。 所 以 程序 员 仍 习惯 于 使 用 文件 来 永久 地 保存 信息 ， 而 存储 在 辅 存 中 的 
虚拟 存储 器 内 容 是 临时 的 映像 (只 要 相关 的 进程 存在 就 一 直 持 续 )。 

E 另 一 个 差别 是 ， 辅 存 中 所 有 文件 的 文件 名 是 可 以 从 任意 地 址 空间 来 访问 的 ， 而 虚拟 存储 器 的 内 容 只 能 
由 相关 的 进程 来 访问 。 因 此 ， 现 代 操作 系统 采用 的 页 式 虚 存 系统 和 文件 系统 是 对 辅 存 的 不 同 接口 。 

当 应 用 程序 在 数据 上 操作 时 ， 它 们 依赖 于 数据 中 的 结构 ， 这 些 数据 表示 为 包含 有 类 型 的 信息 域 的 记录 
集合 (AE 13-3)。 例 如 ， 一 个 发 票 是 文件 中 一 个 单独 的 记录 ， 发 票 记录 中 有 名字、 地 址 、 发 货 数目 等 不 
同 的 域 。 有 专门 与 应 用 相关 的 记录 结构 来 反映 文件 中 的 数值 数据 、 图 像 以 及 音频 信息 等 。 

不 幸 的 是 ， 如 第 5 章 中 所 解释 的 一 样 ， 存 储 设备 只 应 用 
能 够 存储 线性 寻 址 的 字 节 块 。 文 件 系统 提供 了 从 存储 块 
到 适合 于 应 用 程序 所 使 用 的 数据 结构 的 一 种 抽象 。 文 件 记录 
系统 最 少 要 提供 一 种 抽象 ， 把 存储 系统 的 块 链接 在 一 起 = 
而 形成 逻辑 的 信息 集合 一 一 在 图 13-3 中 称 之 为 流 R 
转换 (stream-block translation)。 从 概念 上 讲 ， 有 了 这 种 
转换 ， 则 在 面向 块 的 存储 系统 中 ， 人 们 可 以 存储 并 获取 


当 一 个 应 用 程序 的 数据 结构 被 写 人 一 个 存储 设备 
时 ， 它 将 不 得 不 通过 记录 - 流转 换 过 程 “展开 ”成 字 节 
流 ， 如 图 13-3 所 示 ， 流 可 以 被 存储 在 一 组 块 中 。 随 后 
当 数 据 被 获取 时 ， 将 逐 块 地 进行 读 取 ， 转 换 成 一 个 字 节 


流 ， 然 后 再 转换 回应 用 程序 级 的 数据 结构 。 此 处 记录 - 


流转 换 的 功能 应 该 由 文件 系统 来 提供 吗 ? 或 者 让 文件 系 


统 只 提供 一 个 最 小 的 结构 化 功能 ， 而 期 望 程序 员 将 数据 
转换 为 他 们 自己 的 结构 ? 


传统 上 ， 面 向 商业 事务 的 系统 提供 了 扩展 的 文件 功 存储 设备 

















能 来 支持 数据 结构 化 ， 而 科学 计算 系统 则 将 结构 化 工作 | 

留 给 应 用 程序 。 今 天 ，Windows 和 UNIX 这 种 系统 则 把 | 

结构 化 工作 留 给 应 用 程序 。Apple Macintosh 系统 软件 与 

传统 商业 系统 相 比 提供 了 更 少 用 于 结构 化 数据 处 理 的 功 图 13-3 信息 结构 


能 , 但 比 Windows 和 UNIX 有 更 多 的 功能 。 如 果 一 个 操 OTE: 应 用 一 般 来 说 定义 了 它们 自己 的 扩展 数据 
作 系 统 只 提供 流 ~ 块 转换 功能 ， 就 称 它 提供 了 一 个 低级 结构 〈C 中 的 struct UE). ABH CH 
(low-level) 文件 系统 。 如 果 文 件 系统 提供 记录 - 流 序 员 使 用 stdio 库 来 进行 格式 化 的 、 缓 冲 的 
转换 ， 它 就 是 一 个 结构 化 的 《或 高 级 ) 文件 系统 。Win- 文件 ID。 在 这 种 环境 中 ， 记 录 一 演 转 换 由 
dows 和 UNIX 提供 了 低级 文件 系统 ， 而 专门 用 于 支持 Nite oem 时 库 来 完成 。 操 作 系统 
商业 应 用 的 计算 机 (如 IBM MVS) 提供 了 一 个 结构 化 

的 文件 系统 。 由 于 Macintosh 提供 了 一 些 记录 -流转 换 功能 ， 它 可 以 被 称 为 高 级 文件 系统 。 
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结构 化 文件 系统 必须 提供 一 种 专门 的 语言 〈 一 种 一 般 的 数据 结构 描述 语言 )， 来 定义 记录 ~ 流转 换 程 
序 所 使 用 的 数据 结构 。 设 施 可 能 很 简单 ， 即 允许 程序 员 定义 一 个 记录 的 长 度 以 及 用 于 识别 每 个 记录 的 键 
值 。 也 可 能 足够 复杂 从 而 允许 基于 任意 域 来 存储 和 获取 记录 。 最 具 功 能 性 和 灵活 性 的 系统 是 数据 库 管 理 系 
统 ， 数 据 库 管理 系统 是 存储 设备 的 逻辑 扩展 。 操 作 系 统 可 以 提供 供应 用 程序 使 用 的 一 个 低层 接口 用 来 实现 
数据 库 管 理 系统 。 

支持 多 媒体 文档 的 存储 系统 的 重要 性 进一步 提升 。 当 代 的 应 用 程序 要 求 操作 系统 能 够 处 理 不 同 的 信息 
表示 ， 例 如 ， 数 值 化 数据 、 带 类 型 的 文本 化 数据 、 图 形 、 图 像 以 及 音频 信息 等 。 通 常 ， 低 级 文件 系统 并 没 
有 设计 成 可 容纳 这 些 多 媒体 文档 ， 这 是 因为 不 同 的 媒体 类 型 为 了 有 效 地 实现 MD， 可 能 要 求 有 不 同 的 访问 
和 修改 策略 。 例 如 ， 有 效 访问 一 个 图 像 与 访问 一 个 浮 点 数 的 技术 是 不 同 的 。 越 来 越 多 的 应 用 领域 要 求 操作 
系统 提供 灵活 的 、 高 性 能 的 访问 方法 ， 来 适合 于 使 用 多 媒体 数据 ， 访 问 的 方法 可 由 程序 员 来 定义 。 


13.2.1 低级 文件 


在 图 13-4 中 ， 低 级 的 、 字 节 流 文件 (byte-stream file) 管理 器 实现 了 流 - 块 的 转换 。 字 节 流 文件 是 命 
名 的 非 负 整 数 索 引 的 字 节 序列 ， 字 节 流 中 的 每 个 字 节 都 有 一 个 索引 ; 第 一 个 字 节 的 索引 为 0， 第 二 个 的 索 
引 为 1， 依 此 类 推 。 在 字 节 流 文件 中 ， 打 开 文 件 的 每 个 进程 使 用 文件 读 写 位 置 (file position) 来 访问 文件 
中 的 特定 字 节 。 当 打开 文件 时 ， 文 件 读 写 位 置 指向 文件 中 的 第 一 个 字 节 。 每 & 字 节 读 或 写 操作 完成 则 将 文 
件 读 写 位 置 增加 4&。 在 文件 被 打开 后 的 任意 时 刻 ， 文 件 指针 指向 文件 中 下 一 个 要 读 或 写 的 字 节 位 置 。 


”fia= open("f£iliName",--); 


` 


acsem CDT = Po] = 
close (fid); 


int open(--) {+} 

int close(-) {+} - 
int read(…){…} 流 - 块 转换 
int wzite(…){…} 

int Seek(…){…} 


由 存储 设备 响应 命令 al 


13-4 流 - 块 转换 
TE: 流 一 块 转换 将 字 节 转换 成 特定 设备 块 (或 将 特定 设备 块 转换 成 字 节 )。 这 个 转换 机 制 使 用 原始 设备 接口 来 读 
写 块 ， 在 图 的 左边 提供 了 文件 API。 应 用 程序 不 用 知道 设备 1/0 的 细节 就 能 读 / 写 字 节 流 。 


和 第 2 章 中 介绍 的 具体 文件 操作 接口 一 样 ， 下 面 是 典型 的 对 字 节 流 文件 的 操作 : 

E open (filename): 其 中 filename 是 一 个 唯一 标识 文件 的 字符 串 。 该 操作 用 来 为 对 文件 的 读 或 写作 
准备 。open 操作 使 文件 描述 表 中 的 信息 反映 出 文件 正在 被 使 用 。 它 也 会 引起 打开 附加 的 描述 表 来 管 
理 打开 的 文件 。( 例 如 ， 如 果 系统 支持 共享 的 文件 ， 那 么 一 个 与 进程 相关 的 描述 表 将 被 打开 ， 用 来 
为 该 进程 保存 文件 读 写 位 置 的 设置 。) 该 操作 设置 文件 读 写 位 置 为 0， 并 且 返 回 一 个 文件 标识 符 作 
为 参数 用 于 其 他 文件 操作 。 如 果 文 件 管理 器 支持 文件 访问 模式 (如 “打开 进行 读 ， 但 不 能 写 ”或 者 
“打开 进行 读 写 ")， 那 么 相应 的 访问 模式 也 将 作为 open 中 的 一 个 参数 。 

m close (fileID): 该 操作 释放 在 文件 打开 时 被 创建 的 内 部 描述 表 ， 同 时 释放 被 文件 系统 用 来 管理 字 
节 流 O 的 其 他 任何 资源 。 

m read (fileID, buffer, length): 该 操作 针对 指定 文件 标识 符 fileID 的 文件 ， 从 当前 文件 读 写 位 置 
拷贝 长 度 为 length 的 字 节 (或 者 小 一 些 ) 到 缓冲 中 。 如 果 文 件 当前 位 置 距离 文件 结束 为 工 字 节 ， 
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FHE L< length, WARRE L 字 节 将 被 拷贝 到 缓冲 中 。 该 操作 会 使 文件 读 写 位 置 增加 被 恋 取 
的 字 节 数 并 且 该 系统 调用 返回 本 次 读 的 字 节 数 。 如 果 read 被 调用 时 ， 文 件 读 写 位 置 已 在 字 节 流 的 
结束 处 ， 那 么 就 返回 一 个 文件 结束 的 条 件 。 
M write (fileID, buffer, length): 该 操作 从 缓冲 中 写 长 度 为 length 的 信息 到 当前 文件 读 写 位 置 ， 然 
后 文件 读 写 位 置 增加 length, 
@ seek (fileID, filePosition): 该 操作 改变 文件 读 写 位 置 的 值 为 参数 filePosition 所 指定 的 值 。 随 
后 的 读 写 操作 就 相应 于 新 的 文件 读 写 位 置 值 进行 。 
程序 员 可 以 使 用 文件 操作 命令 ， 并 根据 操作 和 文件 读 写 位 置 的 值 ， 从 文件 中 读 取 字 节 流 或 将 字 节 流 写 
人 人 文件。 文件 管理 器 并 没有 提供 将 结构 增加 到 字 节 流 中 的 功能 。 在 这 种 文件 管理 器 中 ， 字 节 流 作为 结构 化 
数据 的 解释 将 完全 由 读 写字 节 流 的 应 用 程序 来 完成 。 


13.2.2 结构 化 文件 


如 果 应 用 程序 想 把 字 节 流 作为 一 个 记录 序列 来 对 待 ， 它 必须 通过 特定 的 应 用 程序 相关 的 数据 结构 ， 把 
“原始 的 ” 字 节 转换 成 一 个 记录 流 ， 如 图 13-3 所 示 。 因 为 程序 员 使 用 数据 结构 来 定义 应 用 功能 ， 所 以 当 文 
件 中 的 信息 被 访问 时 ， 软 件 的 一 些 部 分 用 于 在 程序 所 用 的 结构 化 记录 与 字 节 流 之 间 来 回 进 行 转换 处 理 。 

UNIX 中 对 字符 文件 的 使 用 说 明了 应 用 程序 如 何 通过 支持 转换 功能 的 库 来 实现 这 种 转换 ，UNIX 文件 
是 字 节 流 文件 ， 尽 管 各 种 UNIX 应 用 中 都 对 字 节 流 强加 了 附加 的 结构 ， 但 操作 系统 中 并 没有 显 式 地 支持 这 
些 附加 结构 。 典 型 的 例子 就 是 ASCH 字符 文件 。 多 年 来 ， 人 们 已 经 积累 了 一 组 不 同 的 程序 来 处 理 所 谓 包含 
字符 的 字 节 流 (文本 ) 文件 。 应 用 软件 对 这 些 文本 文件 有 两 个 假设 ， 首 先 ， 字 节 流 中 只 包含 “可 打印 的 ” 
ASCII 字符 ; 其 次 ,字符 被 安排 成 “ 行 "， 同 时 每 行 都 由 字符 NEWLINE 来 结束 。 

操作 系统 文件 管理 器 并 不 把 文本 文件 与 其 他 的 字 节 流 区 别 开 来 一 一 尽管 有 几 个 命令 (包括 UNIX 系统 软 
件 和 库 例 程 ) 来 做 这 种 区 分 。 例 如 ， 字 计数 程序 we， 读 取 一 个 文件 并 计数 字符 NENLINE 的 数目 ， 通 过 文件 中 
的 标点 和 “空白 处 ”来 确定 其 中 的 “ 字 ” 数 ， 及 由 文件 字 节 数 确定 的 文件 字符 数 ， 然 后 它 打 印 这 些 计数 并 标 
出 文件 的 名 字 。 当 然 ， 用 户 可 以 对 任意 文件 应 用 we， 如 -个 可 重 定位 的 目标 文件 ，w 将 假定 该 文件 是 一 个 
文本 文件 ， 并 且 计 数 行 数 、 字 数 以 及 文件 中 出 现 的 字符 产生 的 结果 并 没有 什么 意义 。UNIX 中 已 经 编写 
了 各 种 其 他 的 程序 来 处 理 文本 文件 ， 并 且 已 经 被 加 入 命令 库 中 了 。 例 如 ，grep、diff 以 及 如 i 等 对 文本 文件 的 
操作 。 这 种 内 核 外 的 扩展 为 系统 提供 了 实质 性 的 应 用 ， 同 时 操作 系统 只 实现 基本 的 字 节 流 。 

UNIX 字符 文件 的 例子 突出 了 如 下 事实 :如果 文件 系 
统 不 能 支持 数据 结构 ， 那 么 应 用 程序 必须 提供 这 种 能 力 。 记录 
当然 ， 也 可 以 设计 文件 管理 器 ， 使 得 它 能 在 存储 块 与 面向 
应 用 的 结构 化 记录 间 进 行 转换 ( 见 图 13.5)。 

结构 化 文件 可 用 来 保存 任何 种 类 的 信息 ， 包 括 绝对 程 
序 映像 、 可 重 定位 目标 程序 、 库 、 根 据 某 些 应 用 需求 组 织 
的 数值 数据 、 文 本 数据 (如 源 程序 )、 字 处 理 文档 、 图 形 
图 像 和 音频 /视频 流 。 最 终 ， 结 构 化 文件 作为 一 组 存储 块 
存储 在 存储 媒体 上 。 实 现 记录 - 块 转换 的 机 制 在 将 数据 结 
构 写 人 磁盘 块 时 ， 必 须 将 数据 结构 进行 转换 。 当 从 磁盘 块 
上 读 出 信息 时 ， 文 件 管理 器 必须 能 重新 组 成 应 用 的 数据 结 
构 。 多 年 以 来 ， 结 构 化 的 文件 管理 器 采取 了 大 量 的 策略 来 
支持 结构 化 数据 ， 下 面 三 个 部 分 描述 了 最 流行 的 方法 。 图 13-5 记录 - 块 转换 

面向 记录 的 顺序 文件 TE: 在 操作 系统 文件 管理 器 中 可 以 结合 记录 - 

很 多 应 用 程序 需要 把 一 组 记录 作为 一 个 列表 来 存储 和 忒 转 换 。 在 这 种 情况 下 ， 应 用 程序 必须 将 
访问 。 例 如 ， 一 个 电子 部 件 系统 要 存储 消息 和 消息 的 文件 ORA RS ea aa 
来。 一 个 邮件 消息 可 以 通过 很 多 不 同 的 程序 来 进行 处 us vets 
如 一 个 编辑 器 、 一 个 邮件 传输 程序 、 一 个 邮件 接收 程序 、 一 个 邮件 发 送 程序 以 及 一 个 邮件 浏览 程序 。 
因此 ， 可 以 方便 地 结合 有 关 电子 邮件 的 一 般 信 息 到 一 个 定义 良好 的 文件 中 。 这 可 以 把 每 个 消息 作为 一 个 记 
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录 ， 同 时 消息 的 各 个 部 分 成 为 记录 的 各 个 域 ， 这 样 就 很 好 地 实现 了 文件 格式 。 一 个 邮件 文件 夹 常常 是 作为 包 
含有 几 个 这 种 记录 的 文件 来 实现 的 。 每 个 邮件 程序 通过 一 致 的 方式 来 使 用 这 种 记录 结构 ， 这 可 以 通过 在 字 节 
流 文件 的 顶层 建立 一 个 抽象 机 来 实现 ， 该 抽象 机 具有 邮件 消息 结构 的 知识 。 或 者 通过 另外 实现 一 个 文件 系 
统 ， 直 接 在 设备 驱动 程序 层 上 来 处 理 记录 和 集合 ( 见 图 13-5)。 

结构 化 顺序 文件 是 命名 的 非 负 整数 索引 的 逻辑 记录 (与 字 节 结构 相对 比 ) 序列。 同 字 节 流 文件 一 样 ， 
通过 文件 读 写 位 置 来 规定 对 文件 的 访问 。 但 在 记录 格式 情形 中 ,文件 的 索引 记录 位 置 取代 了 字 节 位 置 。 文 
件 的 相应 操作 如 下 : 

H open (filename): 根据 给 定 的 filename, MSF PRICE open 一 样 的 功能 ， 并 且 返 回 可 在 后 面 

其 他 操作 中 所 使 用 的 文件 标识 符 。 

E close (fileID): 根据 给 定 的 文件 标识 符 fileID， 完 成 与 字 节 流 文件 close 一样 的 功能 。 

E getRecord (fileID, record): 返回 文件 读 写 位 置 指定 的 record, 

E putRecord (fileID, record): 将 指定 的 record 写 人 文件 的 当前 读 写 位 置 。 

B seek (fileID, position): 移动 文件 读 写 位 置 指针 到 指定 的 记录 处 。 

除了 数据 按 记录 存储 而 不 是 字 节 外 ， 这 些 操 作 等 价 于 对 字 节 流 文件 的 操作 。 

文件 记录 的 格式 是 什么 呢 ? 一 种 方法 是 分 配 个 字 节 来 包含 每 条 记录 ， 同 时 有 另外 的 瑟 个 字 节 来 包 
含 记 录 描 述 符 信息 (参见 图 13-6). getRecord () 和 putRecord () 操作 同时 从 存储 块 中 分 别 读 、 写 H+& 
个 字 节 。 应 用 程序 负责 正确 地 解释 每 条 记录 中 的 域 例如 在 C 中 ,通过 设置 一 个 结构 指针 来 指向 一 个 包含 
记录 的 1/0 缓冲。 





物理 存储 块 


图 13-6 逻辑 -物理 记录 编码 
注 : 在 逻辑 -物理 记录 编码 中 ， 在 记录 存储 到 设备 之 前 ， 数 据 结构 的 各 个 域 被 编码 成 一 串 字 节 。 当 读 取 记 录 时 ， 
数据 被 重新 组 织 并 恢复 为 相应 的 数据 结构 。 ` 


某 些 应 用 会 请 求 访问 非常 大 的 记录 一 一 例如 ， 用 记录 来 保存 一 幅 位 图 图 像 。 而 其 他 的 应 用 只 需要 很 小 
的 记录 一 一 例如 ， 用 来 保存 一 个 名 字 或 地 址 。 如 果 文 件 系统 只 支持 固定 大 小 的 记录 ， 要 么 当 小 记录 被 写 到 
存储 系统 时 ， 它 们 将 浪费 大 量 的 空间 。 要 么 在 大 记录 被 写 到 文件 之 前 ， 人 工 将 它们 进行 分 隔 。 另 一 种 替代 
的 方法 是 加 强 文件 系统 功能 ， 从 而 使 其 包括 为 文件 定义 记录 大 小 的 功能 。 如 操作 setRecordSize (fileID， 
size)， 按 字 节 数 来 建立 写 人 文件 的 记录 大 小 ， 记 录 的 大 小 被 存放 在 记录 头 中 。 

假设 记录 具有 不 同 的 大 小 一 一 也 许 一 些 记录 保存 有 地 址 ， 而 其 他 的 一 些 记录 保存 有 位 图 图 像 。 那 么 必 
须 有 一 组 记录 一块 转换 函数 应 用 于 不 同类 型 的 记录 上 ， 这 可 以 通过 预定 义 记录 类 型 集合 或 使 用 运行 时 解码 
来 实现 。 在 传统 的 面向 记录 的 文件 结构 中 ， 记 录 类 型 是 建立 在 文件 系统 内 部 的 。 在 这 些 情 形 中 ， 访 问 函数 
(access function) 是 在 文件 管理 器 被 设计 和 实现 时 进行 设计 和 实现 的 。 例如 ,文件 管理 器 可 支持 字符 串 ， 
其 中 记录 就 是 一 个 字符 串 。 现 在 ，putRecord() 操作 将 相应 于 流 的 可 变 长 字 节 写 到 存储 设备 中 。 

一 个 更 一 般 的 文件 管理 器 能 支持 程序 员 定 义 的 抽象 数据 类 型 。 应 用 程序 员 将 为 逻辑 记录 定义 格式 并 且 
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定义 读 写 记录 的 访问 程序 。 当 读 写 文件 时 ， 文 件 系统 将 调用 程序 员 所 提供 的 访问 程序 。 随 着 抽象 数据 类 型 
越 来 越 复杂 ， 文 件 系 统 更 类 似 于 一 个 数据 库 系统 。 

例如 ， 电 子 邮 件 常 常 被 定义 为 一 种 有 结构 的 顺序 文 
件 ， 它 的 格式 如 图 13-7 所 示 。 一 个 邮箱 如 同 通过 C struct 
message 所 定义 的 记录 集合 。putRecord () 操作 将 添加 邮 
件 消 息 到 邮箱 文件 的 末端 ，getRecord () 操作 会 从 文件 读 
写 位 置 的 “下 面 ”来 获得 消息 。 图 13-7 也 表示 了 为 消息 记 
录 类 型 定制 访问 程序 的 例子 。 假 定 get () 和 put O 操作 
可 以 根据 读 写 操作 来 进行 编写 。 

结构 化 文件 管理 器 允许 程序 员 将 信息 (如 图 13-7 中 所 
示 的 一 样 ) 导出 到 文件 管理 器 中 。 这 可 以 通过 让 文件 管理 
器 依赖 于 一 组 固定 的 访问 操作 名 ， 让 应 用 程序 为 每 个 操作 
名 字 编 写 定义 来 实现 。 当 应 用 程序 要 求 文件 管理 器 读 记录 
时 ,文件 管理 器 使 用 应 用 程序 所 提供 的 访问 操作 来 读 取 信 
息 的 特定 格式 。 文 件 管理 器 要 提供 所 有 操纵 文件 的 基础 结 
构 (就 像 与 设备 驱动 程序 的 交互 一 样 )， 应 用 程序 编写 者 
只 提供 针对 记录 格式 的 特殊 信息 。 

索引 的 顺序 文件 

在 一 些 应 用 中 并 不 使 用 顺序 访问 信息 的 方法 。 例 如 ， 
在 一 个 交互 查询 系统 中 ， 如 一 个 自动 语音 系统 ， 程 序 所 做 
的 特定 工作 都 将 只 是 针对 某 些 特殊 的 记录 ， 而 不 是 文件 中 
的 每 个 记录 。 那 么 应 用 需要 不 依赖 于 文件 中 记录 的 位 置信 





struct message { 
/* The mail message */ 
address to; 
address from; 
line subject; 
address cc; 
string body; 
ye 


struct message *getRecord(void) { 
struct message *msg; 
msg = allocate(sizeof (message) ); 
msg->to = getAddress(...); 
msg->from = getAddress(...); 
msg->cc = getAddress(...); 
msg->subject = getLine(); 
msg->body = getString(); 
return(msg); 

} 


putRecord(struct message *msg) { 
putAddress(msg->to); 
putAddress(msg->from); 
putAddress(msg->cc); 
putLine(msg->subject); 
putString(msg->body ); 








图 13-7 电子 邮件 例子 
注 : 在 这 个 例子 中 ， 数 据 结构 由 应 用 程序 


息 来 读 、 写 一 个 特殊 的 记录 。 索 引 顺 序 文件 就 提供 了 这 种 
能 力 ， 并 同时 保持 了 顺序 访问 记录 的 能 力 。 每 个 记录 头 包 
括 一 个 整数 索引 域 (index field)。 索 引文 件 系统 的 接口 中 
使 用 了 比 纯粹 顺序 文件 更 为 一 般 的 读 、 写 接口 : 


来 定义 ， 这 些 定义 被 传递 给 文件 管理 
器 。 文 件 管理 器 使 用 数据 结构 定义 和 
用 户 定义 的 函数 来 进行 数据 结构 与 字 
节 流 之 间 的 转换 。 





M getRecord (fileID, index): 返回 一 个 指定 记录 ， 记 录 的 index 域 的 值 等 于 函数 索引 值 。 
M putRecord (fileID, record): 如 同 访问 操作 一 样 ， 在 文件 系统 所 选择 的 文件 位 置 处 写 人 一 个 指定 
record， 然 后 返回 记录 的 index 域 的 值 作为 结果 。 
ŒE deleteRecord (fileID，index) ， 删 除 index 域 值 等 于 函数 中 索引 值 的 记录 。 
索引 顺序 文件 允许 程序 来 管理 索引 ， 通 过 索 
引 可 以 访问 所 要 求 的 记录 。 例 如 ， 假 设 一 个 客户 








想 了 解 帐户 的 收 支 平衡 情况 ， 他 可 以 提供 一 个 帐 应 用 结构 
号 而 不 是 一 个 索引 值 。 自 动 语 音 应 用 程序 将 必须 索引 
保存 有 一 张 表格 来 将 帐号 转换 到 记录 的 索引 ( 参 [3 | | 
见 图 13.8)。 123456 | r | 


假设 程序 员 在 写 记录 时 ， 能 详细 说 明 记 录 的 
索引 。 那 么 通过 使 用 某 个 域 ， 比 如 使 用 每 个 记录 -| 
的 account 帐号 域 作 为 索引 ， 就 可 以 不 要 查询 表 
To 这 将 要 求 putRecord ( ) 操作 改变 为 pu T 
tRecord (fileID，record，index)。 该 操作 会 在 
文件 系统 所 选择 的 文件 位 置 处 写 人 一 个 指定 “ 图 13-8 ” 带 有 查询 表 的 索引 顺序 文件 
record, 并 且 把 索引 参数 值 指 定 为 索引 域 的 值 。 TE: 使 用 索引 顺序 文件 的 应 用 通常 包含 了 查询 表 。 表 中 
如 果 另 一 个 记录 的 索引 域 中 有 索引 参数 指定 的 的 键 值 由 应 用 来 确定 ， 可 由 键 值 找到 相应 的 索引 ， 
值 ， 那 么 操作 就 返回 一 个 False 值 ， 否 则 返回 true, 索引 指向 相应 的 记录 。 
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索引 顺序 文件 被 广泛 应 用 于 商业 计算 中 ， 而 这 些 文件 中 都 有 非常 大 数目 的 记录 ,尤其 是 在 记录 常常 以 
非 顺序 方式 被 访问 时 。 如 果 应 用 程序 打算 系统 地 处 理 文件 中 的 每 个 记录 ， 那 么 索引 顺序 文件 也 可 以 被 顺序 
地 访问 。 

反 相 文件 

在 很 多 应 用 程序 中 ， 在 一 个 记录 被 获得 之 前 应 用 程序 必须 查找 索引 域 。 例 如 ， 假 设 程序 打算 通过 客户 
的 名 字 来 获得 帐号 ,但 客户 可 能 有 多 于 一 个 的 帐 导 。 那 么 为 了 找到 正确 的 帐号 ， 程 序 将 不 得 不 读 取 所 有 匹 
配 客户 名 字 的 记录 ， 然 后 检查 每 一 个 记录 来 确定 所 要 的 记录 。 通 常情 况 下 ， 因 为 记录 不 会 存储 在 同一 个 物 
理 块 中 ， 所 以 每 个 记录 访问 都 将 会 引起 一 个 存储 1/O 操作 。 通 过 从 每 个 记录 中 抽取 索引 域 到 一 个 索引 表 
(index table) 中 ， 就 可 以 从 根本 上 减少 操作 的 数目 。 该 表 的 概念 形式 如 图 13-8 所 示 ， 但 它 是 通过 文件 管理 
器 来 维护 的 ， 而 不 是 应 用 程序 。 然 而 ， 应 用 程序 可 以 查找 该 表 ， 而 不 会 引起 额外 的 存储 设备 1/0 操作 。 

在 这 种 情形 中 ， 应 用 程序 需要 使 用 不 同 的 方式 进行 查找 ， 如 名 字 或 帐号 ， 它 表明 每 个 记录 可 能 有 两 个 
或 多 个 索引 域 。 一 个 域 通过 名 字 把 记录 链接 在 一 起 ， 而 另 一 个 域 是 通过 帐号 。 这 可 以 通过 在 每 个 记录 中 包 
含 每 个 链接 表 的 链接 域 来 实现 ， 或 者 通过 准备 一 个 使 用 名 字 的 索引 表 和 另 一 个 使 用 帐号 的 索引 表 来 实现 。 
只 在 适当 的 表 上 进行 查找 ， 且 只 有 访问 记录 时 才 访问 存储 设备 。 

外 部 索引 表 可 以 通用 化 为 到 文件 中 的 各 个 记录 或 域 中 的 一 个 进入 点 。 当 一 个 记录 被 放置 在 文件 中 时 ， 
记录 中 的 关键 字 被 抽取 出 来 ， 并 且 放 置 在 一 个 索引 表 中 ， 同 时 有 一 个 指针 指向 关键 字 出 现 的 记录 。 这 就 称 
之 为 反 相 文件 (inverted file) ， 因 为 对 记录 的 访问 是 基于 记录 在 索引 表 中 的 出 现 次 序 ， 而 不 是 它们 的 逻辑 
位 置 或 地 址 。 

反 相 文件 也 可 以 通用 化 来 支持 多 个 索引 域 ， 每 一 个 索引 域 都 带 有 它 自己 到 相应 记录 的 索引 。 随 着 索引 
表 存 储 要 求 的 增长 ， 管 理 索引 的 开销 也 在 增长 ， 因 为 记录 的 删除 会 引起 索引 中 指针 的 变化 。 但 通过 使 用 这 
种 文件 ， 可 以 从 根本 上 减少 访问 设备 的 次 数 。 


13.2.3 ”数据 库 管理 系统 


数据 库 管理 系统 (DBMS) 是 计算 机 科学 的 另 一 个 完整 领域 ， 这 里 简单 地 评述 一 下 ， 只 是 为 了 指出 
DBMS 与 操作 系统 之 间 的 关系 。 一 个 数据 库 是 一 个 高 度 结构 化 的 信息 集合 ， 这 些 信息 典型 地 存储 在 几 个 文件 
H, 并且 通 过 组 织 结构 的 优化 来 最 小 化 访问 时 间 。DBMS 使 程序 员 能 够 根据 数据 模式 (schema) 来 定义 复杂 
的 数据 类 型 。 然 后 由 数据 库 管理 员 使 用 这 些 模式 的 详细 说 明 在 文件 中 组 织 存储 信息 ， 因 而 数据 可 以 被 快速 访 
问 。 一 旦 数据 被 存储 在 数据 库 中 ， 可 以 通过 查询 数据 库 而 被 获取 ， 也 可 以 进行 改变 ， 然 后 写 回 到 数据 库 中 。 

数据 的 定义 和 操作 语言 以 及 相关 的 处 理 是 复杂 的 ， 这 些 并 不 是 操作 系统 所 需要 考虑 的 东西 。 在 一 些 
DBMS 实现 中 ， 使 用 由 操作 系统 所 提供 的 一 般 用 途 的 正常 文件 。 很 明显 ， 一 种 低级 文件 系统 将 会 比 一 种 结 
构 化 文件 系统 更 适用 于 DBMS。 这 是 因为 低级 文件 系统 中 并 不 假定 文件 有 任何 特殊 结构 ， 它 期 望 应 用 程 
序 一 一 DBMS 来 完成 这 些 工作 。 

虽然 概念 上 每 个 DBMS 使 用 文件 系统 来 实现 它 的 功能 ， 但 在 很 多 情形 中 ， 数 据 库 管理 系统 有 自己 的 存 
储 设备 块 组 织 结构 以 及 访问 例 程 。 因 而 ， 为 了 直接 使 用 设备 ， 数 据 库 管 理 系统 会 完全 绕 过 文件 系统 ， 这 使 
DBMS 能 够 以 更 有 效 的 方式 来 访问 存储 设备 。 然 而 ， 它 限制 了 存储 在 数据 库 中 的 信息 通过 使 用 文件 管理 器 
对 存储 设备 的 接口 来 进行 访问 。 


13.2.4 多 媒体 存储 


多 媒体 文档 被 设计 为 高 度 结构 化 的 文件 (或 文件 集 )， 包 含有 表示 数字 、 字 符 、 文 本 信息 、 可 执行 程 
序 、 图 形 、 图 像 、 音 频 形式 等 的 信息 。 多 媒体 文档 〈 包 含 图 像 ) 的 存储 要 求 ， 要 比 传统 的 文字 数字 信息 高 
5 个 或 更 多 的 数量 级 。 例 如 ， 一 个 格式 化 的 文本 字符 页 可 能 需要 0.5 KB 到 1 KB 空间 来 保存 相应 的 信息 ， 
但 一 个 类 似 大 小 的 彩色 图 像 页 可 能 需要 10 MB 的 空间 来 存储 。 

这 种 多 媒体 文档 的 不 同 组 成 部 分 使 得 对 存储 要 求 存在 差异 ， 因 而 自然 地 鼓励 采用 可 变 大 小 的 记录 。 这 
又 反 过 来 提出 如 下 的 要 求 : 

© 使 用 多 媒体 文档 的 应 用 程序 中 必须 有 相当 多 的 转换 功能 。 
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。 当 文 件 管理 器 管理 多 媒体 文档 时 ， 文 件 管理 器 必须 为 应 用 程序 提供 一 种 手段 ， 使 应 用 程序 能 够 提 
交 非 常 复杂 的 访问 程序 〈 例 如 ， 根 据 格 式 来 说 明 数 据 转 换 的 策略 ) 。 

在 已 经 构造 的 应 用 环境 中 ， 复 合 文档 文件 被 构造 成 为 精心 制作 的 抽象 数据 类 型 或 类 。 每 种 抽象 数据 类 
型 定义 包含 的 函数 都 能 够 完成 “标准 的 ”操作 ， 如 对 信息 的 读 取 以 及 打印 信息 等 。 该 环境 要 比 传统 的 文件 
系统 更 为 复杂 ， 这 是 因为 它 不 仅 存 储 数 据 ， 还 要 存储 足够 多 的 抽象 数据 类 型 描述 信息 ， 以 便 在 使 用 数据 时 
可 以 激活 适当 的 操作 函数 。 

这 些 非 常 大 的 信息 容器 也 引起 操作 系统 设计 者 们 重新 思考 存储 文件 ， 以 及 信息 如 何 从 存储 设备 中 拷贝 
到 主 存 中 (以 及 拷贝 回 存储 设备 ) 的 机 制 。 


13.3 低级 文件 实现 


字 节 流 文 件 管理 器 提供 了 一 种 代价 最 小 的 机 制 ， 使 一 个 进程 能 够 从 存储 设备 中 读 、 写 信息 。 主 流 的 操 
作 系统 仅仅 实现 了 字 节 流 文 件 管理 器 。 因 为 字 节 流 文件 管理 器 实现 了 文件 管理 器 的 基本 特征 ， 我 们 在 此 着 
重 讨论 字 节 流 文件 管理 器 的 实现 。 . 

文件 管理 器 对 多 种 存储 设备 实现 了 文件 接口 ， 有 些 设备 仅 允 许 对 数据 的 顺序 访问 (如 磁带 )， 其 他 的 一 
些 设备 允许 对 块 的 随机 访问 (如 磁盘 )。 在 任何 一 种 情况 下 ， 如 图 13-9 所 示 , 文件 管理 器 实现 了 流 - 块 转换 ， 
应 用 程序 可 以 将 文件 作为 字 节 流 来 进行 读 写 。 低 级 文件 抽象 在 磁带 上 的 实现 中 要 求 将 逻辑 字 节 流 映 射 到 逐 辑 
块 上 ， 而 逻辑 块 又 被 映射 到 磁带 的 物理 记录 上 。 连 续 的 字 节 被 分 组 成 逻辑 记录 ， 然 后 存储 在 物理 记录 中 。 从 
0 到 上 -1 的 字 节 被 存储 在 逻辑 记录 0 中 ， 而 逻辑 记录 0 又 被 存储 在 物理 记录 0 H, Hh k 是 物理 记录 中 字 节 
的 数目 。 字 节 流 中 的 逻辑 块 依次 映射 到 低级 文件 磁带 实现 中 的 连续 物理 块 上 。 因 而 ， 对 于 磁带 上 的 & 字 节 物 
FBR, FW 如 到 和 -1 被 存储 在 磁带 的 物理 块 0 上 ， PLS AE 


|~—— so 


Sa 


~ 


图 13-9 ”低级 文件 系统 体系 结构 
注 : 这 幅 图 解释 了 文件 管理 器 如 何 对 应 用 程序 员 隐藏 存储 设备 的 细节 。 程 序 员 读 写字 节 流 ， 文 件 管理 器 负责 将 字 
节 流 组 织 到 磁带 或 磁盘 块 上 。 


在 磁盘 实现 中 ， 也 是 将 字 节 流 中 的 连续 字 节 映 射 到 逻辑 块 中 ， 但 逻辑 块 映射 到 的 物理 块 并 不 一 定 在 磁 
盘 上 是 连续 的 。 低 级 文件 系统 的 磁盘 实现 必须 提供 一 种 管理 块 集合 的 机 制 来 存储 特定 文件 的 字 节 ， 使 它们 
如 同 连 续 字 节 流 一 样 能 够 被 访问 。 我 们 通过 考虑 open () REH close O 操作 、 块 管理 及 流转 换 来 考虑 
文件 管理 器 的 设计 问题 。 


13.3.1 open () 和 close () 操作 


当 建立 文件 时 ， 文 件 管理 器 建立 一 个 称 为 文件 描述 表 的 数据 结构 实例 ， 它 存储 了 有 关 文 件 的 细节 信 
息 。 文 件 描述 表 与 文件 的 内 容 一 起 保存 在 存储 设备 上 。 不 同 的 文件 管理 器 在 文件 描述 表 中 存储 不 同 的 信 
息 , 但 大 多 数 都 包含 有 以 下 的 内 容 (或 者 根据 请 求 能 够 得 到 ) : 
| © FAK (external name): 文件 的 字符 串 名 ， 可 用 于 命令 行 或 应 用 程序 中 。 这 是 用 户 给 文件 取 的 一 个 
符号 名 。 
E 共享 标志 〈sharable) ;该 域 表 示 多 个 进程 可 以 同时 打开 文件 。 该 域 可 标识 文件 为 读 共享 的 、 执 行 共 
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享 的 、 写 共享 的 等 。 
B 所 有 者 (owner): 该 标识 符 与 创建 文件 的 用 户 相 关联 。 在 某 种 情形 中 ， 所 有 权 可 能 通过 其 他 某 种 策 
略 进行 分 配 。 文 件 系统 可 能 允许 一 个 进程 传递 所 有 权 给 其 他 用 户 。 
m 保护 设置 (protection settings): 表示 保护 特征 〈 不 同 的 操作 系统 有 不 同 的 特征 )。 保 护 的 最 小 模式 就 
是 对 读 和 写 进行 保护 。 保 护 设置 暗示 所 有 者 是 否 能 够 读 写 该 文件 ， 而 不 绕 过 保护 。 第 二 个 保护 域 规 
定 了 其 他 进程 是 否 能 够 读 写 该 文件 。 
BE KÆ (length): 文件 中 所 包含 的 字 节 的 数目 。 
m 创建 时 间 (time of creation): 文件 创建 的 时 间 。 
E 最 后 修改 时 间 (tithe of last modification): 文件 最 后 一 次 被 写 人 的 系统 时 间 。 
E 最 后 访问 时 间 (time of last access): 文件 最 后 一 次 被 读 取 、 执 行 或 者 其 他 的 操作 所 完成 的 系统 时 间 。 
m 引用 计数 (reference count): 如 果 目 录 系 统 允 许 一 个 文件 出 现在 多 于 一 个 的 目录 中 时 ， 它 就 表示 包含 
该 文件 的 目录 数目 。 它 用 于 检测 。 当 在 所 有 目录 中 该 文件 被 删除 时 ， 即 可 以 释放 文件 所 占 空 间 了 。 
B 存储 设备 信息 (storage device details): 该 域 中 包含 有 如 何 访问 文件 中 的 块 的 详细 信息 。 这 些 信 息 依 
赖 于 文件 管理 器 所 采用 的 存储 设备 块 管理 策略 。 
在 线程 读 文件 之 前 ， 它 必须 首先 打开 文件 。 这 个 操作 使 得 文件 管理 器 为 需要 读 写 的 指定 文件 作 准 备 。 
在 存储 设备 中 定位 文件 是 一 个 目录 操作 ， 所 以 这 一 步 推迟 到 13.5 节 的 目录 相关 内 容 讨论 中 。 当 文件 位 于 
存储 设备 上 时 ， 文 件 管理 器 使 用 来 自 外 部 文件 描述 表 的 信息 来 完成 文件 使 用 准备 这 一 步 。 
文件 管理 器 进行 检查 以 确保 进程 被 授权 访问 文件 。 这 个 授权 涉及 比较 外 部 文件 描述 表 的 保护 位 和 用 
户 /进程 持 有 的 保护 键 值 。 如 果 进 程 试图 打开 一 个 它 并 没有 适当 权限 访问 的 文件 ， 授 权 检 查 过 程 会 不 允许 
HEFT open () 操作 。 除 了 保护 授权 外 ， 文件 管理 器 也 需要 对 open O 操作 检查 其 他 的 约束 。 例 如 ， 它 需要 
检查 文件 的 读 / 写 锁 来 看 是 否 可 以 访问 。 
一 旦 文件 管理 器 确定 了 进程 被 授权 访问 文件 ， 它 建立 文件 描述 表 的 内 部 版 本 ， 称 为 打开 文件 描述 表 
( 见 图 13-10)。 打 开 文 件 描述 表 除 了 包含 外 部 文件 描述 表 的 所 有 信息 外 ， 还 有 一 些 其 他 的 特定 文件 的 信息 。 
例如 ， 内 部 文件 描述 表 可 以 包含 如 下 域 : 


四 保存 进程 - 
文件 会 话 状态 








@ 将 外 部 文件 
人 @ 返 回 一 个 数 ”| 进程 -文件 描述 表 拷 贝 到 打 
据 结构 指针 会 话 | 开 文 件 描述 表 


外 部 文件 描述 表 


图 13-10 文件 管理 器 数据 结构 
注 : 当 一 个 文件 被 打开 时 ,文件 管 理 器 建立 不 同 的 数据 结构 来 表示 文件 的 当前 状态 。 首 先 ， 文件 管理 器 从 辅 存 中 找 
贝 外 部 文件 描述 表 ， 这 些 信息 可 用 来 管理 文件 。 其 次 ， 为 保持 MO 操作 状态 (如 文件 指针 位 置 )， 文件 管理 器 
将 建立 进程 -文件 会 话 数据 结构 。 最 后 ,文件 管理 器 返回 这 些 数据 结构 的 引用 给 执行 open O 操作 的 应 用 。 


m 锁 (locks): 锁 可 以 是 读 锁 (read locks)， 意 味 着 当前 打开 的 文件 是 用 于 读 的 。 如 果 文 件 是 共享 的 ， 
其 他 进程 只 能 打开 它 进行 读 。 写 锁 (write lock) 表明 一 个 进程 已 经 打开 文件 进行 写 。 除 非 该 文件 是 
写 共享 的 ， 那 么 在 一 个 时 刻 就 只 能 有 一 个 进程 使 用 该 文件 。 

m 当前 状态 (current state): 文件 的 状态 可 以 是 存档 (archived) 状态 ， 这 意味 着 它 已 经 被 写 人 一 个 很 
余 的 存储 层次 中 ， 如 果 它 被 打开 使 用 需要 有 很 大 的 延迟 。 如 果 文 件 是 关闭 (closed) 状态 ,文件 会 
驻 留 在 一 个 在 线 的 存储 设备 中 ， 并 且 可 以 在 几 毫秒 内 被 打开 来 使 用 。 文 件 可 以 被 打开 进行 读 取 操作 
(open for reading) , 这 意味 着 文件 被 分 配给 一 个 进程 进行 读 操作 ; 它 也 可 以 被 打开 进行 写 操作 
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(open for writing)， 这 意味 着 文件 被 分 配给 一 个 进程 进行 写 操作 ; 或 者 为 执行 打开 (open for execut- 
ing)、 为 添加 打开 (open for appending) 等 操作 。 

BAP: 当前 打开 文件 的 一 系列 进程 列表 ， 如 果 文 件 并 没有 共享 ， 则 这 项 要 么 为 NULL 要 么 为 一 个 单 

个 进程 。 

多 个 进程 有 可 能 同时 打开 一 个 文件 。 在 这 种 情况 下 ， 每 个 进程 对 打开 的 文件 都 有 自己 的 文件 读 写 位 
置 。 因 此 ， 当 文件 被 打开 时 ,文件 管理 器 必须 创建 一 个 额外 的 数据 结构 来 表示 文件 的 每 个 “会 话 ” 一 一 进 
程 和 文件 I/O 操作 间 的 关系 。 最 后 ，open () 函数 会 返回 一 个 特定 会 话 数据 结构 的 引用 给 应 用 程序 。 

总 体 来 说 ，open() 操作 通知 文件 管理 器 初始 化 管理 I/O 的 内 部 数据 结构 。 特 别 地 ， 它 执行 下 面 的 步 
RR. 

1) 在 存储 设备 上 定位 文件 及 其 外 部 文件 描述 表 。 

2) 从 外 部 文件 描述 表 中 提取 有 关 文 件 的 信息 以 及 来 自 进程 描述 表 的 进程 信息 。 

3) 对 进程 是 否 被 允许 访问 文件 进行 检查 。 

4) 在 打开 文件 描述 表 数 组 中 建立 有 关 项 来 保持 进程 对 文件 使 用 的 信息 。 

5) 在 进程 - 文件 会 话 表 数组 中 建立 项 来 跟踪 与 文件 交互 的 每 个 进程 状态 。 

当 完 成 授权 、 数 据 结构 分 配 和 初始 化 后 ，open () 命令 才 算 完成 。 进 程 的 文件 位 置 表示 文件 中 的 第 一 
个 字 节 ， 并 且 进 程 可 以 对 文件 进行 读 写 ， 这 取决 于 打开 文件 时 的 许可 方式 。 

close () 操作 使 文件 管理 器 完成 所 有 的 未 处 理 的 操作 (例如 ， 将 留 在 主 存 中 的 输出 缓冲 进行 刷新 )， 
释放 LIMO 缓冲 ， 释 放 进 程 在 文件 上 持 有 的 锁 ， 更 新 外 部 文件 描述 表 ， 释 放 文 件 状态 表 项 。 


E = 
示例 : UNIX 中 的 open 和 close 操作 
BSD UNIX 中 的 内 核 open () 调用 的 形式 如 下 : 


int open(char * path, int flags [, int mode] ) 


其 中 第 一 个 参数 规定 了 要 打开 文件 的 路 径 名 。flags 参数 是 一 个 位 图 ， 其 中 每 个 位 表示 一 个 开关 。 例 
如 ， 如 果 在 flags 参数 中 0_ RDONLY、0 _ WRONLY 或 O_RDWR 的 对 应 位 被 设置 ， 则 相应 地 表示 文件 应 该 被 打 
开 只 用 于 读 、 只 用 于 写 或 者 用 于 读 写 。 系 统 open () 的 man 页 中 描述 了 所 有 的 标志 位 值 。 如 果 flags 参数 
设置 为 0_ CREAT, IRATE open 调用 时 如 果 文 件 不 存在 ， 则 创建 该 文件 。 在 这 种 情形 中 ， 可 选 的 模式 参数 
mode 规定 了 对 新 文件 的 保护 设置 。 

当 一 个 文件 被 打开 时 ， 文 件 管理 器 会 在 存储 系统 中 搜寻 指定 路 径 名 。 这 可 以 是 一 个 扩展 的 过 程 ， 因 为 
它 必 需 打 开路 径 名 中 的 每 个 目录 〈 从 路 径 中 的 最 高 层 目录 名 开始 ) ， 查 找 路 径 名 中 的 下 一 个 文件 或 目录 路 
径 分 量 ， 然 后 打开 那个 目录 或 文件 。 

如 图 13-11 所 示 ， 一 旦 文件 管理 器 确定 了 打开 文件 ， 接 下 来 ，open O 在 一 个 特定 的 进程 打开 文件 表 
中 创建 一 个 表 项 ， 该 表 项 通过 调用 返回 的 一 个 小 整数 值 来 标识 ， 这 个 表 项 可 以 被 进程 中 的 每 个 线程 使 用 。 
当 进 程 被 创建 时 ，stdin 表 项 的 标识 号 为 0，stdout 值 为 1， 以 及 stderr 值 为 2。 下 一 个 成 功 的 open () 或 
pipe () 调用 将 在 进程 打开 文件 表 中 的 位 置 3 处 创建 一 个 表 项 。 

当 文 件 被 关闭 时 ， 它 的 标识 号 就 变 成 可 重用 的 了 ， 下 一 个 open O 调用 就 使 用 最 小 号 的 可 用 的 标识 。 如 
果 一 个 close() 后 立即 跟 有 一 个 open() 操作 ， 将 会 引起 关闭 的 标识 号 被 重用 。 例 如 ， 在 下 面 的 代码 中 : 


close( stdout); 


fid = open(“newOut”, flags); 


”其 中 变量 fid 的 值 将 是 1， 因 为 stdout 使 用 标识 号 1。 这 种 方法 可 以 用 于 实现 1/0 的 重 定向 (参见 
实验 9.1)。 

特定 进程 打开 文件 表 中 的 表 项 指向 打开 文件 表 中 被 称 为 文件 结构 (le structure) 的 一 个 表 项 。 在 
UNIX 系 统 中 ， 进 程 - 文件 会 话 表 实际 上 是 由 描述 符 表 (特定 进程 的 打开 文件 表 ) 和 文件 结构 表 一 起 实现 
的 。 例 如 ， 在 文件 结构 表 项 中 有 该 进程 所 使 用 的 文件 读 写 位 置 的 信息 。 如 果 有 两 个 不 同 的 进程 打开 了 该 文 
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件 ， 那 么 每 个 打开 都 将 有 它们 自己 的 文件 读 写 位 置 的 拷贝 。 在 文件 inde 被 加 载 到 主 存 后 ， 文 件 结构 表 项 
有 指针 指向 主 存 的 inode 拷贝 。 


设备 上 的 文件 
描述 表 (所 谓 inode) 












fid =open("fileA", flags); 






read (fid,buffer,len); 





打开 文件 表 inode 列 表 


图 13-11 打开 一 个 UNIX 文件 
注 ; 这 幅 图 显示 了 UNIX 文件 管理 器 的 数据 结构 。 特 定 进程 的 打开 文件 表 访 问 系统 范围 的 文件 结构 表 中 的 表 项 。 
文件 结构 表 访问 存储 在 inode list 中 的 inode 节点 (外 部 文件 描述 表 的 拷贝 )。 打 开 文 件 表 和 文件 结构 表 项 
类 似 于 一 般 的 进程 - 文件 会 话 表 项 。 


当 进 程 / 线 程 打开 一 个 文件 时 ， 打 开 文件 表 中 会 建立 新 项 ， 但 是 另 一 个 进程 可 能 也 已 经 打开 了 此 文件 ， 
这 时 inode 已 经 被 载 人 inode 链 。 文 件 管理 器 会 确定 是 使 用 存在 的 inode 还 是 从 外 部 文件 描述 表 中 载 人 in- 
ode。 最 后 ， 对 文件 结构 表 项 进行 设置 来 访问 相应 的 inode 链 项 。 表 13-1 解释 了 inode 中 域 的 特性 。 


表 13-1 UNIX 文件 描述 符 





域 描 述 

Mode 文件 拥有 者 和 其 他 用 户 的 访问 许可 说 明 
UD 创建 文件 的 用 户 ID 
Group ID 与 文件 相关 联 的 ID， 它 标识 了 对 文件 有 组 访问 权限 的 一 组 用 户 
Length in bytes 文件 中 的 字 节 数 
Length in blocks 用 来 实现 文件 的 块 数 
Last modification 最 后 一 次 写 文件 的 时 间 
Last access 最 后 一 次 读 文 件 的 时 间 
Last inode modification inode 最 后 一 次 被 改变 的 时 间 

文件 出 现 的 目录 数 ， 当 文件 从 所 有 的 目录 中 删除 时 ， 这 个 域 用 来 检测 它 的 空间 是 否 
Reference count 

可 以 释放 了 
Block references 文件 中 块 的 指针 和 间接 指针 

E 





在 文件 管理 器 改变 主 存 中 的 inode 时 ， 并 没有 影响 到 存储 设备 中 的 inode (外 部 文件 描述 表 )。 当 文件 
被 关闭 时 ， 或 者 在 应 用 程序 发 出 sync 命令 时 ， 主 存 中 的 inode 被 定期 地 拷贝 回 辅 存 中 。 如 果 在 文件 打开 的 
同时 机 器 终止 了 ， 如 果 对 主 存 中 的 inode 拷贝 进行 了 某 些 改变 ， 那 么 磁盘 上 的 inode 就 可 能 与 主 存 中 的 不 
同 。 结 果 将 会 引起 文件 系统 的 不 一 致 ， 因 为 辅 存 中 inode 的 拷贝 是 不 会 丢失 的 ， 但 当主 存 inode 拷贝 被 破 
坏 时 ， 有 关 文 件 的 最 新 信息 就 丢失 了 。 例 如 ， 如 果 主 存 inode 中 的 存储 块 指针 已 经 被 改变 ， 相 应 的 磁盘 上 
的 inode 也 应 该 改变 ， 如 果 突 然 停电 ， 那 么 磁盘 上 的 inode 还 是 原来 存储 块 的 指针 。 

fsck 实用 程序 是 用 来 恢复 这 种 错误 的 。 简 要 地 说 ，fsck 会 读 取 文 件 系统 中 的 每 个 文件 ， 然 后 读 取 磁 
盘 上 的 每 个 块 并 且 试图 使 每 个 块 的 状态 与 文件 指针 相关 联 。 如 果 两 个 状态 不 一 致 ， 尽 管 fsck 不 能 改正 ， 
但 它 知道 发 生 了 一 个 错误 。 
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在 打开 文件 时 所 创建 的 系统 表 和 指针 在 图 13-11 中 进行 了 小 结 。 在 实际 的 实现 中 还 结合 有 另外 的 表 来 
处 理 文件 系统 的 缓冲 。 


13.3.2 RB 


块 管理 指 的 是 记录 存储 块 与 哪个 文件 相关 联 的 任务 。 在 顺序 存储 设备 中 ， 如 磁带 ， 这 个 任务 是 非常 容 
易 完成 的 ， 但 对 于 随机 存储 设备 (如 磁盘 ) ， 块 管理 是 文件 管理 器 的 一 个 很 重要 的 功能 。 因 为 存储 设备 有 
固定 大 小 的 块 ， 我 们 假定 所 有 的 块 B; 和 B; 都 包含 有 k 个 字 节 ， 因 而 第 i 个 字 节 5b, 被 存储 在 B; 中 ， 其 中 j = 
L isk] G 取 比 ;AR 大 的 最 小 整数 )。 所 以 有 m 个 字 节 的 文件 在 存储 设备 上 至 少 要 求 有 m/% 个 块 (如 果 m 
不 是 块 大 小 的 整数 倍 需 再 加 上 一 抉 )。 物 理 存 储 块 至 少 可 以 通过 三 种 不 同 的 方式 来 进行 管理 : 

a 在 辅 存 设备 上 作为 一 个 相 邻 块 的 集合 。 

m 作为 由 指针 链 起 来 的 块 列表 。 

E 作为 由 文件 索引 链 起 来 的 块 集合 。 

文件 描述 表 中 有 关 存储 的 域 为 每 种 块 分 配 策 略 提 供 了 不 同 的 数据 结构 。 

连续 分 配 

连续 分 配 策略 将 文件 中 的 N 个 逻辑 块 映射 到 N 个 地 址 连续 的 物 
理 块 上 。 这 种 策略 可 以 使 得 随机 访问 存储 设备 像 顺序 访问 设备 一 样 ， 
它 允许 驱动 器 花 比 较 少 的 时 间 对 整个 文件 进行 读 取 、 写 人 。 这 是 因 
为 文件 系统 将 以 非常 高 的 速率 传递 请 求 给 驱动 器 ， 而 驱动 器 在 一 个 
较 短 的 时 间 内 访问 相互 邻近 的 块 。 对 相 邻 块 的 请 求 使 得 设备 的 读 写 
头 的 移动 最 少 。 一 个 典型 的 连续 分 配 存储 块 的 文件 状态 表 项 中 所 包 
含 的 信息 如 图 13-12 所 示 。 图 13-12 ”连续 块 的 文件 状态 表 项 

连续 分 配 策略 并 不 适合 动态 大 小 文件 ， 因 为 它 直 接 把 逻辑 块 映 注 : 对 于 连续 分 配 策略 来 说 ， 数 据 块 管 
射 到 物理 结构 中 。 如 果 文 件 被 存储 在 某 个 连续 的 块 集合 中 ， 后 来 数 理 是 非常 简单 的 ， 因 为 文件 管理 器 
据 又 被 增加 到 文件 的 结尾 处 ， 要么 存储 设备 下 一 个 连续 的 物理 块 必 仅仅 需要 知道 块 的 开始 位 置 和 块 的 
须 是 可 用 的 ， 要么 整个 文件 必须 被 拷贝 到 一 组 更 大 的 未 分 配 的 连续 数目 。 
块 中 。 只 要 文件 系统 打算 分 配 N 块 给 一 个 文件 ， 则 在 文件 系统 的 存储 设备 中 必须 找到 N 个 连续 的 物理 
块 。 假 定 存储 设备 上 的 空间 是 可 用 的 ， 那 么 它 必 须 选 择 某 个 未 分 配 的 块 集合 > HATSN, 

在 上 述 情况 下 ， 可 以 使 用 几 种 子 策略 ， 比 较 常 用 的 方法 是 最 佳 适合 、 最 先 适 合 和 最 大 适合 算法 ( 见 第 
11 章 )。 最 佳 适合 算法 会 选择 SN 但 是 > 是 最 小 的 连续 块 。 最 先 适 合算 法 会 分 配 第 一 个 满足 r 宇 N 条 件 
的 块 。 最 大 适合 算法 会 选择 比 N 块 大 的 一 个 最 大 块 ， 然 后 将 它 分 成 两 部 分 ，N 块 供 文件 使 用 ， 另 一 部 分 
为 新 的 >- 六 个 未 分 配 的 块 。 

连续 分 配 策略 会 导致 外 部 碎片 ， 物 理 磁盘 空间 被 分 成 一 组 小 的 连续 块 ， 这 些 连 续 块 太 小 而 不 能 用 于 文 
件 分 配 〈 尽 管 可 以 对 磁盘 进行 紧凑 来 消除 碎片 )。 连 续 分 配 策略 对 整个 文件 传输 来 说 ， 访 问 时 间 会 花费 较 
少 ， 因 为 文件 中 的 所 有 块 在 磁盘 上 是 连续 的 〈 当 对 整个 文件 进行 拷贝 时 ， 减 少 了 磁盘 磁头 的 移动 ) 。 

链接 列表 

块 的 链接 列表 策略 是 在 组 成 文件 的 一 个 任意 物理 块 集合 中 使 用 显 式 指针 。 逻 辑 块 ; +1 并 不 需要 分 配 
在 接近 逻辑 块 i 的 物理 块 位 置 ， 因 为 块 i 将 包含 一 个 带 链接 指针 的 头 ， 来 指向 包含 逻辑 块 ;+ 1 的 物理 块 。 
文件 的 状态 表 项 将 包括 文件 读 写 位 置 的 拷贝 以 及 一 个 指向 文件 的 第 一 个 设备 物理 块 的 指针 ( 见 图 13-13). 
该 表 项 也 可 能 包含 有 其 他 用 于 管理 打开 文件 的 数据 。 

文件 中 的 每 个 块 都 包含 有 文件 管理 器 所 使 用 的 额外 信息 。 在 示例 中 ， 块 中 有 两 个 额外 的 域 ， 用 于 保存 
下 一 个 块 的 指针 以 及 块 中 实际 存储 字 节 数 的 计数 。 长 度 域 使 得 在 每 个 块 中 能 够 存储 可 变数 目的 字 节 数 ， 从 
而 使 文件 管理 器 能 够 在 处 理 动态 文件 时 ， 减 少 分 配 以 及 释放 块 的 数目 。 

在 一 个 链接 列表 块 分 配 策略 中 ， 对 字 节 流 中 字 节 的 随机 访问 将 会 是 很 慢 的 ， 尤 其 是 随 着 文件 大 小 的 增 
长 。seek () 操作 是 随机 访问 的 基础 ， 因 为 它 可 以 在 数据 传送 操作 之 前 进行 文件 的 重 定位 。 在 这 种 分 配 策 
略 中 ， 每 个 seek () 都 将 有 很 大 的 开销 ， 因 为 这 种 策略 要 求 遍 历 列 表 。 这 会 需要 读 取 列 表 中 的 每 个 块 ， 因 
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为 必须 通过 上 一 块 的 链接 域 才能 访问 到 下 一 个 块 。 在 seek () 操作 期 间 可 以 采用 双向 链接 列表 (图 13-14) 
来 提高 性 能 。 当 执行 seek () 操作 时 ， 文 件 管理 器 要 计算 出 是 否 在 列表 上 向 前 移动 还 是 向 后 移动 ， 或 者 到 
列表 的 开头 或 结尾 处 去 查找 目标 块 。 





Hn- 





图 13-13 ”用 于 链接 列表 的 文件 状态 表 项 
TE: 在 链接 列表 分 配方 案 中 ， 文 件 中 的 数据 块 以 单 向 链表 的 方式 链接 在 一 起 。 描 述 表 仅仅 需要 反映 链 在 设备 上 的 
起 始 位 置 。 





文件 状态 表 





图 13-14 ”双向 链接 块 
注 : 双向 链表 使 文件 管理 器 可 以 从 当前 文件 位 置 向 前 或 向 后 搜索 ， 来 减少 设备 读 操作 的 次 数 。 


索引 分 配 

对 链接 列表 策略 的 批评 主要 是 因为 seek () 操作 是 密集 的 I/O 操作 (尽管 采用 了 双 链 接 列表 进行 优 
化 )， 开 销 太 大 。 针 对 这 种 批评 ， 可 以 通过 从 每 个 数据 块 中 抽取 链接 域 ， 并 把 它们 放 在 一 个 有 N 个 条 目的 
单独 索引 块 中 来 处 理 。 索 引 分 配 策略 为 所 有 存储 数据 的 块 建立 一 个 索引 块 〈 参 见 图 13-15)。 在 索引 块 中 有 
块 长 度 域 ， 同 时 带 有 块 的 指针 ， 文 件 管理 器 通过 索引 块 中 的 指针 进行 定位 操作 ， 这 可 以 简化 文件 读 写 位 置 
的 定位 。 通 过 索引 表 访 问 的 块 可 能 多 于 或 少 于 N 个 ， 如 果 文 件 块 数 比 N 少 得 多 ， 那 么 索引 表 中 的 空间 将 
会 被 浪费 ;如 果 有 多 个 文件 块 都 少 于 N 个 ， 那 么 积累 的 浪费 空间 可 能 就 很 大 。 这 种 丢失 的 空间 称 之 为 表 
ZŁ} (table fragmentation)， 如 果 块 的 个 数 明显 不 匹配 或 者 有 很 多 小 文件 ， 那 么 这 种 现象 就 会 很 
严重 。 








字 节 0 


字 节 4095 












字 节 0 


字 节 4095 
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E 13-15 ”索引 分 配 策略 的 文件 状态 表 项 


È: 在 索引 分 配 中 ， 文 件 管理 器 有 一 个 驻 内 存 表格 ， 它 提供 了 文件 中 每 个 块 的 磁盘 地 址 。 当 然 ， 这 个 表 应 能 满足 
最 大 的 文件 要 求 (或 至 少 可 以 扩展 ) 。 
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如 果 文 件 需要 多 于 六 个 块 ， 那 么 必须 通过 增加 一 个 或 多 个 索引 块 进行 扩展 ， 让 增加 的 索引 块 包含 额 
外 的 索引 指针 。 例 如 ， 这 可 以 通过 使 用 一 个 索引 块 的 链接 列表 方案 来 解决 。 也 可 以 通过 使 用 多 级 间接 表 来 
实现 ， 其 中 “超级 ”索引 块 指针 指向 其 他 索引 块 ， 由 它们 的 指针 再 指向 存储 设备 块 。 





示例 : UNIX 文件 结构 

UNIX 文件 结构 使 用 了 一 种 变种 的 索引 分 配方 案 。inode 中 的 存储 设备 详细 信息 部 分 包含 有 指针 ， 它 
们 指向 15 种 不 同 的 存储 块 ( 见 图 13-16)。 文 件 的 前 12 个 块 直接 通过 inode 中 15 个 指针 的 前 12 个 索引 ， 
inode 中 的 最 后 3 个 指针 是 用 于 指向 索引 块 的 间接 指针 。 如 果 文 件 管理 器 块 大 小 为 4KB， 那 么 inode 中 的 前 
12 个 直接 指针 所 能 表示 的 文件 最 高 可 达 48KB。 事 实 表明 这 是 一 种 有 效 的 机 制 (参见 [Ousterhout et al. 
1985])。 如 果 一 个 文件 需要 多 于 12 个 存储 块 来 存放 ， 那 么 文件 系统 就 分 配 一 个 索引 块 ， 并 且 将 它 链接 到 
inode 中 的 单 重 间接 (single indirect) 指针 (第 13 个) 上。 因而 , 块 13 到 就 通过 inode 中 的 第 13 个 指 
针 所 标识 的 间接 索引 块 进行 间接 寻 址 。 类 似 地 ， 更 大 的 文件 要 使 用 第 14 个 指针 指向 一 个 双重 间接 (double 
indirect) 块 ， 最 大 的 文件 使 用 第 15 个 指针 指向 一 个 三 重 间接 (triple indirect) 块 。 


inode 





图 13-16 UNIX 文件 结构 
TE: UNIX 文件 管理 器 的 索引 表 使 用 了 索引 分 配 和 链接 列表 的 组 合 。 最 初 的 12 个 块 通过 直接 索引 访问 ， 随 后 的 块 
可 通过 读 取 单 重 、 双 重 和 三 重 间接 索引 来 访问 。 

那么 UNIX 文件 能 够 有 多 大 呢 ? 这 取决 于 块 的 大 小 以 及 系统 中 磁盘 地 址 的 大 小 。 为 简化 算术 ， 假 设 一 个 
间接 块 可 以 存储 1000 个 磁盘 地 址 ， 那 么 单 重 间接 块 将 为 1000 个 磁盘 块 提供 指针 。 块 0 一 11 是 通过 inde 中 
的 直接 指针 来 访问 的 ， 但 块 12 一 1011 是 间接 地 通过 单 重 间接 块 来 访问 的 。inode 中 的 第 14 个 块 指针 是 双重 
间接 指针 ， 它 指向 一 个 索引 块 ， 其 中 所 包含 的 指针 指向 单 重 间 接 索 引 块 。 双 重 间接 指针 所 指向 的 块 又 指向 
1000 个 间接 块 ， 因 而 块 1012~ 1001 011 是 通过 双重 间接 指针 来 访问 的 。 第 15 个 块 指针 是 三 重 间接 指针 ， 它 
指向 一 个 块 。 其 中 包含 有 双重 间接 指针 。 同 样 ， 如 果 每 个 块 可 以 存储 1000 个 块 地 址 ， 那 么 三 重 间接 指针 间 
接 寻 址 的 块 可 以 从 1 001 012 到 1001 001 011 块 ， 这 也 是 文件 的 最 大 块 数 (在 上 述 假设 前 提 下 )。 

使 用 这 种 块 分 配 策 略 ， 随 着 文件 的 增长 ， 由 于 间接 访问 的 原因 访问 时 间 会 越 来 越 长 ， 但 可 以 实现 非常 
大 的 文件 。 但 是 有 其 他 因素 会 影响 在 这 种 inode 结构 中 所 设计 的 最 大 文件 大 小 。 例 如 ， 使 用 前 面 所 给 定 的 
块 大 小 ,一 个 文件 使 用 三 重 间 接 索 引 将 要 求 设 备 存储 能 力 达 4000GB。BSD UNIX 的 当前 版 本 中 并 没有 使 
用 三 重 间接 指针 ， 部 分 原因 是 由 于 文件 大 小 与 存储 设备 技术 不 兼容 ， 部 分 原因 是 由 于 文件 系统 所 采用 的 
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32 位 地 址 不 允许 文件 大 于 4 GB。 


上 一 一 一 
示例 ! DOS 下 的 FAT 文件 系统 

在 MS.DOS 软 盘 上 的 文件 系统 是 基于 文件 分 配 表 FAT 
(FAT) 文件 系统 ， 磁 盘 被 分 为 预 留 区 (reserved area) 0 
(包含 有 引导 程序 ) 、 实 际 的 文件 分 配 表 、 根 目录 以 及 文 1 
件 空间 ( 见 图 13-17)。 文 件 的 空间 分 配 是 由 分 配 表 中 的 5 
值 来 表示 的 ， 这 个 分 配 表 有 效 地 提供 了 文件 中 所 有 块 的 
链表 。 特 定 的 值 指出 了 文件 的 结束 、 未 分 配 的 块 和 损坏 
的 块 。 最 初 的 FAT 有 许多 限制 : 它 没 有 子 目 录 ， 仅 限 ei 
于 小 的 磁盘 使 用 ， 如 果 分 配 表 被 损坏 了 ， 很 难 对 磁盘 进 
行 恢复 。 

当 个 人 计算 机 得 到 广泛 应 用 时 ， 磁 盘 驱动 器 的 容量 J 
也 得 到 了 极 大 的 提高 。 当 磁盘 容量 变 得 越 来 越 大 时 ， 出 
现 了 很 多 的 FAT 变种 供 大 家 使 用 。 基 本 的 FAT 组 织 
( 见 图 13-17) 在 不 同 的 磁盘 类 型 间 有 些 不 同 ， 主 要 是 项 
的 大 小 (在 Windows 的 不 同 版 本 中 ， 图 中 的 m 可 以 是 
12、16 或 32)、 实 际 表 的 数目 以 及 FAT 项 表示 的 逻辑 
扇 区 的 大 小 。 

在 最 简单 的 情形 中 ， 磁 盘 上 的 每 个 块 对 应 于 一 个 一 一 
FAT 项 。 文 件 是 一 组 磁盘 块 ， 对 应 于 第 一 块 的 FAT 项 
it TRAE RAS, 同样 地 ， 第 一 块 的 FAT 注 : MS-DOS 磁盘 使 用 文件 分 配 表 (FAT) 文件 系 
项 指定 了 第 三 块 的 逻辑 肩 区 号 等 。 最 后 一 块 的 FAT 项 统 ,磁盘 被 分 为 预 留 区 (包含 了 引导 程序 )、 
包含 了 文件 结束 (EOF) 标识 符 。 因 此 ，FAT ERER 实际 的 文件 分 配 表 、 根 目录 以 及 文件 空间 。 

区 的 链表 。 如 果 你 知道 第 一 个 扇 区 的 地 址 ;， 即 FAT 的 
索引 ， 就 可 以 使 用 FAT 来 访问 文件 中 的 下 一 个 逻辑 块 〈 见 图 13-17) ，FAT 索引 i 的 内 容 ; 是 逻辑 扇 区 号 ， 
它 也 是 文件 的 第 二 个 FAT 项 的 索引 。 

当 磁 盘 容 量 大 于 32MB f, FAT 结构 开始 使 用 肩 区 簇 的 概念 。 簇 (cluster) 是 一 组 连续 的 扇 区 ， 在 
FAT 中 它 是 作为 虚拟 扇 区 来 看 待 的 。 在 FAT 文件 系统 的 当代 实现 中 ，FAT 项 表示 了 簇 而 不 是 单个 的 磁盘 
AK. AR. FAT 组 织 可 以 将 四 个 扇 区 组 成 一 组 ， 好 像 它们 是 单个 的 扇 区 一 样 。 这 意味 着 磁盘 空间 
是 按 艇 分 配给 文件 的 。 现 在 ， 软 盘 使 用 12 位 FAT， 硬 盘 使 用 16 位 FAT 或 32 位 FAT. 

| 





RASS aE j 






BAP SRK k 


图 13-17 FAT AR 


未 分 配 块 

当 文件 系统 初始 化 时 ， 所 有 的 块 未 分 配 ， 当 建立 新 文件 和 扩展 一 个 文件 时 ， 就 为 文件 分 配 存储 块 。 有 
不 同 的 策略 来 管理 这 些 未 分 配 的 磁盘 块 。 在 磁盘 初始 化 时 ， 文 件 管理 器 创建 一 个 数据 结构 来 记录 所 有 未 分 
配 的 块 (文件 描述 表 可 以 记录 已 经 分 配 的 块 )。 处 理 未 使 用 块 集合 的 一 个 常见 方法 ， 是 把 它们 初始 化 为 称 
之 为 空闲 列表 【free list) 的 索引 文件 或 空闲 块 链 。 空 闲 列表 中 的 抉 除了 没有 任何 信息 存储 在 其 中 外 ， 与 传 
统 文件 有 相同 的 格式 。 只 要 某 个 实际 文件 需要 一 个 存储 块 ， 某 块 就 会 从 空闲 列表 中 被 取出 并 分 配给 需要 块 
的 相应 文件 。 在 链接 列表 分 配方 式 中 ， 空 闲 列 表 的 任 一 端 都 可 以 进行 分 配 。 如 果 空 闲 列表 使 用 索引 分 配方 
式 来 实现 ， 那 么 将 可 能 从 最 后 一 个 索引 块 的 尾 端 选 取 空 闲 存储 块 进行 分 配 。 

空闲 列表 最 初时 很 大 ， 因 为 它 包 含 磁盘 上 的 每 个 未 分 配 的 块 (事实 上 ， 此 时 它 是 最 大 值 ， 因 为 每 个 块 
都 在 空闲 列表 中 )。 这 往往 使 空闲 列表 不 可 能 使 用 索引 实现 ， 而 是 更 偏向 于 使 用 链接 列表 策略 来 实现 ， 因 
为 索引 表 会 十 分 大 。 因 为 维持 列表 的 空间 开销 来 自 于 未 使 用 (未 分 配 ) 块 ， 链 接 列表 策略 更 优 于 索引 列表 
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策略 。 

磁盘 设备 通常 用 来 支持 文件 系统 。 回 忆 一 下 5.5 节 介 绍 的 移动 磁盘 读 / 写 头 的 寻 道 时 间 可 能 十 分 大 ， 
这 意味 着 文件 中 逻辑 相 邻 的 块 ， 物 理 上 可 能 位 于 磁盘 表面 的 不 同位 置 。 在 这 种 情况 下 ， 如 果 对 文件 进行 顺 
序 读 ， 通 常 当 磁头 从 一 个 块 移 到 下 一 个 块 时 ， 读 操作 会 花费 很 多 的 寻 道 时 间 。 所 以 ， 文 件 管理 器 试图 从 磁 
盘 表 面 的 相同 物理 区 域 (相同 的 或 相 邻 的 柱 面 ) 为 文件 分 配 所 有 的 块 。 现 在 我 们 看 见 了 链接 列表 策略 的 一 
个 问题 : 很 难 在 磁盘 的 物理 临近 区 分 配 磁盘 块 ， 因 为 块 分 配器 必须 遍历 列表 来 搜索 物理 上 临近 的 块 ， 而 这 
些 块 有 可 能 已 经 分 配给 文件 了 。 

文件 管理 器 的 第 三 种 选择 是 对 用 于 文件 的 磁盘 块 保 持 块 状态 映射 (block status map) (也 称 之 为 磁盘 位 
映射 ，disk bitmap). WRB i 个 块 被 分 配 ， 则 映射 中 的 第 i 个 项 置 位 ， 否 则 复位 。 对 于 1GB 磁盘 来 说 ， 如 
果 块 大 小 为 4KB， 则 在 块 状态 映射 中 需要 256K 个 项 。 如 果 每 个 项 是 单个 的 位 ， 这 个 表 会 使 用 32KB 的 空 
间 。 大 多 数 的 文件 管理 器 设计 者 认为 ， 这 种 提供 磁盘 上 未 分 配 块 的 快照 机 制 十 分 合理 。 块 状态 映射 可 以 保 
持 在 主 存 中 ， 当 需要 将 一 个 块 分 配给 文件 时 ， 为 了 能 在 访问 时 很 快 地 定位 一 个 存储 块 ， 即 希望 文件 中 临近 
的 块 物理 上 也 临近 ， 就 需要 读 取 块 状态 映射 射 。 文 件 管理 器 通过 设置 块 状态 映射 中 相应 的 项 来 将 块 分 配给 
文件 。 当 一 个 块 从 文件 中 释放 时 ， 块 状态 映射 项 被 复位 ， 并 且 文 件 指针 也 要 做 相应 的 调整 。 

块 状 态 映 射 方法 的 另 一 个 优势 是 ， 它 可 以 用 于 检查 磁盘 . 查看 是 否 所 有 文件 地 址 中 的 全 部 指针 恰好 都 
指向 已 分 配 块 集合 ， 一 个 块 不 应 该 被 分 配给 多 于 一 个 文件 ， 标 记 为 未 分 配 的 块 也 不 应 该 出 现在 任何 文件 的 
块 列 表 中 。 简 单 地 说 ， 可 以 遍历 文件 系统 中 的 每 个 文件 ， 标 识 出 文件 中 的 块 ， 然 后 查看 这 些 块 的 块 状 态 映 
射 项 。 

为 文件 增加 块 

如 果 应 用 程序 对 图 13-12 到 图 13-15 所 示 的 文件 描述 表 的 文件 进行 单个 字 节 的 写 操 作 ， 比 如 字 节 234 
中 的 内 容 将 被 重 写 。 为 完成 该 操作 ， 文 件 系 统 要 读 取 包 含 字 节 234 的 块 ， 重 写 该 字 节 ， 然 后 将 块 重 写 到 磁 
盘 中 。 这 个 过 程 中 包含 了 两 次 对 磁盘 驱动 程序 的 调用 ， 以 及 两 次 磁盘 I/O 操作 。 如 果 字 节 234 刚刚 被 写 
过 ， 不 久 相同 块 中 的 下 一 个 字 节 又 要 进行 写 操作 ， 文 件 管理 器 可 能 会 延迟 写 回 。 例 如 ， 如 果 下 一 个 操作 是 
对 加 载 块 中 的 任 一 个 字 节 的 操作 一 一 如 字 节 235， 如 果 文 件 被 顺序 访问 ， 其 物理 块 已 经 被 加 载 到 文件 系统 
管理 的 主 存 中 了 。 使 用 这 种 方法 ， 可 以 避免 一 次 磁盘 read 操作 ， 在 几 个 字 节 上 的 磁盘 write 操作 也 可 以 被 
缓冲 。 如 果 在 请 求 一 个 write 操作 时 ， 文 件 指 针 在 文件 结尾 的 位 置 ， 那 么 必须 获得 一 个 新 空闲 块 并 且 将 其 
增加 到 块 列表 的 逻辑 结尾 处 。 ， 


13.3.3 读 、 写 字 节 流 


对 存储 设备 的 任意 单个 操作 是 以 固定 大 小 的 字 节 块 进行 的 。 典 型 的 顺序 存储 设备 使 用 可 移动 的 媒体 ， 
如 磁带 或 盒 式 磁带 ， 每 个 媒体 一 般 保 存 着 一 个 文件 。( 当然， 文件 可 以 是 其 他 文件 的 压缩 文件 ， 如 UNIX 
中 的 tar 文件 。 通 过 使 用 外 部 工具 来 压缩 文件 ， 然 后 将 结果 信息 写 人 字 节 流 媒 体 ， 这 样 可 以 有 效 地 利用 媒 
k.) 如 同 本 节 开 始 所 解释 的 一 样 ， 在 顺序 存储 设备 中 ， 文 件 中 逻辑 块 的 次 序 与 物理 块 的 次 序 是 相同 的 。 
而 随机 访问 存储 设备 有 另外 的 机 制 ， 来 生成 与 顺序 访问 块 集合 等 价 的 块 访问 序列 。 

在 低级 文件 系统 中 有 一 个 模块 ， 实 现在 连续 块 集合 Bo，B;，B:，… 之 上 存储 一 个 字 节 流 bos bi, 
b2, read 或 write 操作 有 两 个 阶段 ， 

E 从 块 的 主 存 拷贝 中 读 取 字 节 流 中 字 节 ， 或 者 将 字 节 写 到 主 存 拷贝 中 。 

m 从 存储 设备 中 读 取 物 理 块 到 主 存 中 ,或 者 从 主 存 将 块 信息 写 到 存储 设备 中 。 

使 用 字 节 来 打包 和 解 包 块 

当 文件 系统 处 理 读 操作 时 ， 会 从 存储 设备 中 读 取 一 串 字 节 ， 这 些 字 节 逻 辑 上 位 于 字 节 流 序列 中 ， 通 过 
文件 读 写 位 置 所 指向 的 字 节 从 字 节 流 中 来 获得 字符 串 。 当 文件 为 读 操 作 打 开 时 ， 文 件 中 的 第 一 个 块 会 被 乒 
贝 到 主 存 中 ， 并 且 文 件 读 写 位 置 指向 流 中 的 第 一 个 字 节 (在 第 一 个 块 中 的 第 一 个 字 节 )。 预 定 的 字 节 数目 
从 块 的 主 存 拷贝 中 拷贝 到 命令 指定 的 缓冲 区 。 如 果 要 读 取 的 字 节 数 大 于 主 存 块 所 包含 的 字 节 数 ， 文 件 管理 
器 将 读 取 文件 中 的 下 一 个 块 。 这 个 解 包 (unpacking) 过 程 是 基于 将 辅 存 块 转换 成 字 节 流 来 实现 的 。 

写 操作 打包 ( pack) 字 节 串 到 主 存 中 的 存储 设备 块 拷 贝 中 ， 当 块 拷贝 满 了 时 ， 就 将 拷贝 写 回 到 设备 
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中 。 当 文件 为 写 操作 打开 时 ， 文 件 的 第 一 个 块 会 拷贝 到 主 存 中 ， 因 此 块 中 原来 的 相应 字符 串 会 根据 写 操作 
的 要 求 被 覆盖 。 当 写 操作 引起 文件 读 写 位 置 移出 了 第 一 个 块 的 范围 并 且 到 第 二 个 块 中 时 ， 第 一 个 块 就 会 补 
写 回 到 存储 设备 中 ,第 二 个 块 被 拷贝 到 主 存 中 并 通过 输出 操作 改变 其 内 容 。 

文件 seek 操作 可 能 引起 一 系列 的 存储 设备 读 操作 。 如 果 应 用 程序 调用 seek 操作 将 当前 读 写 位 置 定位 
到 位 置 i， 那 么 文件 管理 器 必须 确定 哪个 逻辑 块 ; 包含 有 位 置 i。 假 设 所 有 块 包含 有 相同 数目 的 字 节 k (R 
了 文件 中 的 最 后 一 个 块 )。 最 简单 的 实现 允许 通过 计算 Li 来 确定 j， 然 后 文件 管理 器 可 以 读 取 块 B 来 为 
随后 的 1/0 命令 做 准备 。 如 果 块 管理 器 使 用 索引 表 ， 注 意 “ 读 第 | 个 块 ” 仅 需要 一 个 设备 读 操作 ， 但 是 如 
果 块 管理 策略 使 用 链接 列表 ， 可 能 需要 几 次 读 操作 。 

假设 文件 接口 允许 将 新 信息 插入 文件 的 操 
fe (这 不 同 于 在 文件 读 写 位 置 对 信息 的 重 写 )， 
打包 和 人 解 包 会 变 得 更 复杂 。 为 了 处 理 信息 插 
A, 文件 管理 器 必须 能 够 分 配 新 的 块 ， 将 它们 
增加 到 块 数据 结构 的 内 部 ， 并 且 可 以 释放 块 数 
据 结构 中 任何 一 处 的 块 。 这 是 因为 在 任意 位 置 
进行 插入 《而 不 只 是 在 字 节 流 的 结尾 处 进行 )， 
要 求 被 分 配 的 块 恰好 能 保存 插 人 的 信息 。 在 图 
13-18a 中 ， 在 字 节 5b; 和 6;+1 之 间 新 增加 了 一 个 
字 节 。 在 本 例 中 ,6 在 以 b% 字 节 开 始 的 块 中 ， 
由 于 在 块 ; 中 已 没有 空间 存放 新 字 节 ， 因 而 一 
个 新 的 块 ;+ 1 被 增加 到 文件 中 ， 并且 最 初 存储 
在 位 置 i+1 到 +r 的 字 节 被 写 到 新 块 中 ， 同 
时 带 有 新 的 索引 ;+2 到 有 +r+l。 DRAN 

如 果 文 件 接口 也 允许 在 文件 当前 读 写 指针 处 N 
删除 信息 ， 那 么 文件 管理 器 可 能 去 配 一 个 块 并 且 E1318 增加 一 个 字 节 到 一 个 字 节 流 文件 中 
将 它 返回 到 空闲 块 列 表 中 。 使 用 删除 操作 ， 块 将 注 : 当 一 个 字 节 被 加 入 到 一 个 满 块 时 ， 必 须 将 一 个 新 的 块 
多 次 遇 到 内 部 碎片 的 问题 ， 如 图 13.18b 所 示 , 如 加 入 到 文件 中 。 在 新 字 节 之 前 的 信息 留 在 原来 的 块 中 ， 

， a 、 新 字 节 之 后 的 信息 被 写 人 新 块 中 。 这 个 新 字 节 可 以 写 

果 插 入 和 删除 操作 可 以 在 文件 中 的 任意 位 置 处 进 到 新 蕊 的 开始 ， 也 可 以 写 到 旧 块 的 结束 处 。 
行 ， 内 部 碎片 将 最 终 引起 浪费 的 空间 数量 超过 文 
件 管理 器 所 设立 的 阔 值 ， 或 者 对 于 文件 而 言 超过 它 的 空闲 块 限额 。 在 这 种 情形 下 ， 文 件 可 以 被 压缩 ， 因 此 每 个 
块 被 密集 重 写 。 文 件 压缩 也 可 以 通过 文件 管理 器 接口 上 的 显 式 操作 来 实现 。 

假设 文件 系统 维持 的 数据 块 都 没有 填 满 有 效 数 据 ， 那 么 通过 简单 地 把 字符 加 入 到 存在 的 块 中 ， 这 些 字 
符 就 可 以 容易 地 加 到 文件 中 的 任意 一 处 。 如 果 必 须 增加 一 个 新 块 ， 那 么 系统 可 能 在 新 分 配 的 块 和 它 的 邻居 
之 间 ， 调 整 少量 字 节 的 存储 位 置 。 在 索引 文件 中 ， 这 意味 着 索引 本 身 必须 重 写 。 由 于 碎片 ， 带 有 插入 和 删 
除 的 字 节 流 文件 系统 ， 往 往 比 纯 字 节 流 文件 系统 使 用 更 多 的 物理 空间 。 只 要 在 文件 内 部 有 字 节 被 插 和 人 或 删 
除 ， 块 中 就 会 有 未 使 用 的 空间 。 ， 

1/0 

一 旦 在 字 节 流 文件 中 确定 了 文件 读 写 位 置 ， 文 件 管理 器 就 可 以 对 相应 的 存储 设备 块 进行 读 、 写 。 回 想 
一 下 存储 设备 随 需 要 进行 读 、 写 ， 现 代 操作 系统 意识 到 对 于 存放 顺序 信息 的 文件 (如 一 个 字 节 流 )， 可 以 
通过 缓冲 来 使 CPU 操作 与 设备 操作 交 迭 执行 进而 从 根本 上 增强 性 能 。 

如 同 第 5 章 所 讨论 的 一 样 ， 在 操作 系统 中 ， 可 以 通过 使 设备 1/O 操作 与 CPU 活动 交 选 来 获得 明显 的 
性 能 增长 。 块 缓冲 提供 了 开发 这 种 交 选 操作 的 主要 机 会 。 文 件 是 一 个 被 进程 顺序 访问 的 结构 实体 ， 这 意味 
着 当 进 程 打开 一 个 文件 进行 读 操作 时 ， 文 件 管理 器 知道 进程 极 可 能 从 文件 的 开始 读 取信 息 _ 直 到 结尾 。 从 
而 文件 管理 器 可 以 提前 对 文件 进行 读 ， 这 取决 于 它 分 配给 打开 文件 的 缓冲 数目 ， 以 及 存储 设备 的 可 用 性 。 
类 似 地 ， 文 件 写 打开 时 也 可 以 通过 缓冲 区 准备 送 往 存储 设备 的 信息 ， 当 存储 设备 可 用 时 就 将 缓冲 信息 写 人 
其 中 ， 这 样 也 可 以 使 CPU 对 缓冲 区 的 操作 和 缓冲 区 与 设备 的 操作 并 行 。 


块 j i j 新 块 ji+1 
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Ousterhout 等 人 [1985] 通过 对 此 类 情形 的 研究 表明 ， 文 件 缓冲 对 于 系统 的 整体 性 能 有 着 巨大 的 成 效 。 
上 面 引用 的 研究 中 强调 了 缓冲 的 另 一 个 好 处 ， 即 对 信息 的 大 多 数 访问 只 是 针对 文件 的 一 小 部 分 数据 ， 它 们 
会 被 读 、 写 多 次 。 这 意味 着 如 果 信 息 在 第 一 次 访问 时 被 拷贝 到 缓冲 中 ， 那 么 第 二 次 以 及 随后 的 访问 将 不 再 
发 生 磁盘 操作 。 

除了 对 文件 中 信息 子 集 的 多 次 访问 的 现象 以 外 ， 缓 冲 的 性 能 增长 与 被 进程 所 读 、 写 的 块 数 目 有 关 。 如 
果 一 个 进程 的 所 有 块 I/O 操作 需要 Tio 个 时 间 单 位 ， 并 且 进 程 计算 使 用 Tcpu 个 时 间 单 位 ， 那 么 执行 的 时 
间 将 不 会 大 于 Tout Tyo, FAKED ToM Tro 两 者 中 的 最 大 值 。 当 下 一 个 请 求 的 存储 设备 块 在 
进程 需要 时 已 经 被 读 取 到 主 存 ， 就 可 以 获得 最 小 的 执行 时 间 。 显 然 ， 如 果 文 件 组 织 结构 为 链接 列表 ， 程 序 
经 常 调用 字 节 流 定位 操作 ， 最 小 的 执行 时 间 是 很 难 获得 的 。 


13.4 支持 高 级 文件 抽象 


低级 文件 系统 试图 避免 将 记录 级 功能 加 入 文件 管理 器 。 如 果 应 用 程序 中 经 常 使 用 很 大 或 很 小 的 记录 ， 
满足 这 种 记录 读 写 要 求 的 通用 的 文件 管理 器 就 很 难 实现 。 另 一 方面 ， 被 应 用 程序 所 广泛 采用 的 策略 ， 如 果 
能 在 操作 系统 中 得 以 实现 ， 那 么 它 的 实现 将 会 变 得 更 加 有 效 。 现 代 操作 系统 的 发 展 趋势 是 ， 开 放 的 操作 系 
统 已 经 朝 低 级 文件 系统 发 展 。 相 反 ， 那 些 瞄准 特殊 应 用 领域 的 机 器 所 专 有 的 操作 系统 ， 通 常 提供 一 种 高 级 
的 文件 系统 。 本 节 综 述 一 下 支持 存储 抽象 的 一 些 典 型 的 方法 。 


13.4.1 结构 化 顺序 文件 


结构 化 顺序 文件 包含 逻辑 记录 的 集合 。 使 用 如 字 节 流 文件 中 一 样 的 索引 来 访问 记录 。 结 构 化 顺序 文件 
与 字 节 流 文件 不 同 的 是 ， 结 构 化 顺序 文件 引起 一 个 完整 记录 的 读 或 写 。 结 构 化 顺序 文件 管理 器 的 实现 逻辑 
上 与 字 节 流 文件 管理 器 是 相同 的 。 如 果 结 构 化 顺序 文件 提供 在 文件 中 任意 位 置 插 和 人 的 选项 操作 ， 那 么 管理 
器 必须 采用 与 考虑 insertByte () 操作 一 样 的 思路 来 进行 设计 。 

一 般 来 说 ， 处 理 结构 化 文件 的 文件 管理 器 必须 包含 低级 文件 所 具有 的 相同 的 信息 ， 还 需要 额外 的 域 来 
扩充 数据 结构 : 

加 类 型 :描述 文件 类 型 的 标志 。 例 如 ， 类 型 域 可 将 可 重 定位 目标 文件 和 绝对 目标 文件 或 PostScript X 

件 区 分 开 来 。 i 

国 访问 方法 : 一 组 读 文件 、 写 文件 、 添 加 文件 内 容 、 更 新 文件 或 其 他 访问 文件 的 函数 集合 。 因 为 高 级 

的 结构 化 文件 呈现 抽象 数据 类 型 的 特征 ， 描 述 表 的 这 部 分 信息 标识 了 抽象 数据 类 型 的 函数 接口 。 

里 其 他 : 特定 的 结构 化 文件 类 型 有 其 他 的 域 来 表示 文件 与 其 他 文件 的 关系 ， 如 处 理 这 种 文件 类 型 的 文 

件 管理 器 的 最 小 版 本 号 信息 等 。 

大 多 数 的 重要 的 新 功能 被 加 到 访问 方法 中 : 一 个 固定 集 或 一 个 程序 员 可 定义 方法 的 机 制 。 


13.4.2 索引 顺序 文件 


在 索引 顺序 文件 中 ， 每 个 记录 包含 有 一 个 索引 域 ， 使 用 该 域 可 以 从 文件 中 选择 该 记录 。 一 个 应 用 程序 
提供 了 一 个 read RÈ write 操作 的 索引 值 。 文 件 管理 器 实现 了 一 种 机 制 ， 来 查询 存储 设备 找到 包含 记录 的 物 
理 块 ， 实 现 中 可 能 使 用 如 结构 化 顺序 文件 一 样 的 文件 结构 。 记 录 的 索引 通常 确定 记录 存储 在 文件 中 的 次 
F: 记录 0 被 作为 第 一 条 记录 存储 在 第 一 个 块 中 ， 记 录 1 作为 第 一 个 块 中 的 第 二 条 记录 存储 ， 依 此 类 推 ， 
直到 第 一 个 块 放 满 。 下 一 条 记录 就 被 存储 在 第 二 个 块 中 等 。 文 件 管理 器 的 第 一 个 新 任务 就 是 管理 记录 到 块 
的 映射。 记录 的 插入 和 删除 可 能 在 文件 中 的 任意 逻辑 位 置 进行 ， 因 而 ， 在 索引 顺序 文件 中 就 出 现 了 内 部 碎 
片 和 压缩 的 问题 。 

文件 管理 器 可 以 实现 一 种 用 于 直接 访问 记录 的 机 制 ， 不 同 于 把 记录 保存 在 一 种 顺序 访问 的 数据 结构 
中 ,它们 可 以 被 放置 在 不 同 的 块 中 ， 然 后 通过 文件 的 索引 进行 访问 。 这 就 要 求 文件 管理 器 为 每 个 打开 的 文 
件 保 存 一 个 表 ， 并 且 将 索引 映射 到 包含 记录 的 块 的 块 号 上 。 这 种 直接 访问 可 以 从 根本 上 减少 文件 中 记录 的 
访问 次 数 ， 其 代价 主要 就 是 索引 所 占 的 空间 。 索 引 顺序 文件 中 的 读 、. 写 操作 要 比 面向 流 的 文件 复杂 得 多 ， 
因为 文件 管理 器 必须 根据 索引 值 来 访问 记录 。 而 且 ， 缓 冲 可 能 没有 什么 实际 的 价值 ， 因 为 通过 索引 域 应 用 
程序 员 能 够 任意 地 选择 访问 记录 的 次 序 。 
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13.4.3 ”数据库 管理 系统 


如 前 所 述 ， 数 据 库 管理 系统 (DBMS) 本 身 就 构成 了 计算 机 科学 的 一 个 完整 领域 ， 因 而 这 里 只 是 简要 
地 提 及 为 DBMS 设计 者 所 提供 的 辅 存 管理 的 部 分 。DBMS 是 基于 基本 辅 存 管理 器 (storage manager) 而 建 
立 的 ， 由 辅 存 管理 器 取代 了 文件 管理 器 。 辅 助 存储 管理 器 的 接口 是 相对 低层 的 ， 可 以 使 DBMS 设计 者 能 够 
直接 操纵 存储 设备 。 这 样 可 以 使 数据 库 管理 系统 开销 更 小 。DBMS 技术 取决 于 数据 库 管 理 员 选择 组 织 文件 
内 记录 和 跨 文 件 的 记录 的 能 力 。 关 系 型 数据 库 要 求 有 一 种 很 有 效 地 查找 记录 的 方法 ， 而 面向 对 象 型 数据 库 
则 要 求 通 过 应 用 程序 代码 来 定义 访问 的 方法 。 传 统 的 文件 系统 接口 不 能 支持 这 些 功能 ， 因 而 为 了 与 它们 相 
适应 ， 就 要 求 用 辅 存 管理 器 取代 文件 管理 器 。 这 使 得 一 个 支持 DBMS 和 文件 系统 的 系统 ， 通 常 不 允许 通过 
文件 接口 访问 存储 在 数据 库 中 的 数据 。 


13.4.4 多 媒体 文档 


多 媒体 文件 对 存储 系统 的 要 求 类 似 于 数据 库 (面向 对 象 的 数据 库 常常 根据 需要 被 调整 用 来 支持 多 媒体 
文档 )。 实 际 上 ， 因 为 多 媒体 文档 往往 使 用 抽象 数据 类 型 来 实现 ， 它 要 求 使 用 应 用 程序 定义 的 方法 来 访问 
文档 的 不 同 部 分 。 这 就 要 求 辅 存 设备 有 专门 的 辅 存 管理 器 接口 ， 与 数据 库 实 现 情形 相同 。 

高 带宽 吞吐 量 通过 当代 文件 管理 器 的 基本 操作 来 实现 是 有 争议 的 。 如 果 多 媒体 文档 中 包含 有 一 个 
10MB 的 记录 (FARR) 并 且 磁 盘 块 大 小 为 4KB， 那 么 一 个 读 操 作 会 跨 过 2400 个 块 。 块 分 配 策略 将 会 对 
图 像 传输 的 速率 有 很 大 的 影响 。 如 果 要 节省 传输 的 时 间 ， 连 续 分 配 策略 将 会 有 最 好 的 表现 ， 尽 管 要 对 相关 
“的 碎片 间 题 付出 大 的 代价 。 类 似 地， 文件 管理 器 的 其 他 部 分 通常 是 在 没有 应 用 程序 同时 请 求 多 个 块 的 前 提 
下 设计 的 ， 因 而 不 能 对 多 媒体 文档 传输 提供 高 性 能 的 服务 。 

为 满足 多 媒体 文件 和 文档 的 性 能 要 求 ， 操 作 系统 技术 正在 进一步 发 展 ， 如 同 这 里 所 说 的 一 样 ， 目 前 还 
没有 对 多 媒体 文件 提供 高 性 能 支持 的 流行 操作 系统 。 


13.5 目录 


他 们 有 目录 ， 但 目录 的 问题 是 即使 你 计算 出 你 在 哪个 目录 ， 及 你 想 找 的 目录 ， 你 仍然 不 知道 沿 哪个 路 

径 走 ， 因 为 它 是 一 个 秋 直 图 。 
—— Jerry Seinfeld, SeinLanguage 

到 目前 为 止 ， 本 章 描述 了 文件 和 它们 的 实现 。 文 件 管理 器 的 第 二 个 主要 责任 是 为 用 户 提供 管理 文件 集 
合 的 设施 。 提 供 这 样 的 设施 有 很 大 的 实际 需求 : 一 般 情况 下 ， 计 算 机 辅 存 的 配置 不 超过 50GB。 经 验 表明 ， 
在 4.2 BSD UNIX 系统 上 的 大 多 数 文件 长 度 不 超过 10KB [Ousterhout et al. ，1985]。 假 定 平均 的 文件 长 度 
是 10KB， 如 果 磁 盘 全 部 用 完 的 话 ， 系 统 会 有 超过 5000000 个 文件 。( 如 第 16 章 将 要 解释 的 ， 当 代 的 机 器 
可 通过 网 络 来 访问 许多 其 他 的 文件 。) 如 果 这 人 台 机 器 有 10 个 用 户 使 用 ， 每 个 用 户 平 均 有 500 000 个 文件 。 
即使 每 个 用 户 仅 访问 系统 中 的 1000 个 文件 ， 也 需要 -一些 方法 来 组 织 和 管理 这 些 文件 。 尽 管 Seinfeld 指出 了 
目录 的 一 些 缺 点 ， 但 目录 是 组 织 和 查询 大 量 文件 的 一 种 基本 方法 。 

文件 目录 是 一 组 逻辑 上 的 文件 和 子 目录 的 集合 。 目 录 是 一 种 将 整个 系统 中 的 文件 集合 组 织 起 来 的 机 

fl; 目录 被 组 织 成 文件 集合 的 逻辑 容器 。 文 件 管理 器 为 用 户 提供 了 一 组 命令 来 管理 目录 ， 其 中 有 ; 

E 列举 (enumerate) 返回 一 个 指定 的 目录 包含 的 所 有 文件 以 及 贱 套 目录 的 列表 。 目 录 列 举 命令 〈 像 U- 
NIX 中 的 1s 和 Windows 命令 行 解释 器 中 的 dir) 也 可 用 于 为 用 户 界面 或 程序 返回 某 个 文件 描述 表 的 
内 容 。 

BHM (copy) 创建 一 个 已 经 存在 文件 的 副本 。 

图 重 命名 (rename) 改变 一 个 已 经 存在 文件 的 符号 名 字 。 

时 删除 (delete) 从 目录 中 移 走 指定 的 文件 ， 然 后 删除 它 并 释放 包括 文件 描述 表 在 内 的 文件 中 的 所 有 
块 。 

图 遍历 (traverse) 在 当代 机 器 中 的 主要 目录 结构 都 是 层次 结构 一 一 即 目录 包含 有 子 目 录 。 遍 历 操作 使 
用 户 能 够 通过 从 一 个 目录 到 另 一 个 目录 的 浏览 来 发 现 层次 结构 。 

文件 通过 它们 的 符号 名 字 (一 组 可 打印 的 字符 ， 如 ASCH 字符 ) 来 区 别 。 符 号 名 字 在 大 多 数目 录 操 作 
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中 被 作为 一 个 参数 来 使 用 ， 这 有 益 于 人 们 通过 目录 来 组 织 文件 。 


目录 结构 


目录 结构 指 文件 管理 器 对 文件 集 和 子 目录 进行 组 织 的 方式 。 一 般 来 说 ， 目 录 结 构 或 者 是 所 有 元 素 的 简 
单列 表 ， 或 者 是 某 种 层次 OF) 结构 。 如 果 目 录 提 供 了 所 有 文件 的 线性 列表 ， 这 称 之 为 平面 名 空间 (flat 
name space) (参见 图 13-19a) 。 集 合 中 的 文件 可 以 按 名 字 、 大 小 、 最 后 访问 时 间或 其 他 的 准则 来 排序 ， 但 
是 通常 来 说 集合 上 没有 其 他 的 结构 。 当 文件 的 总 数 超过 了 某 个 上 限时 〈 因 人 而 异 )， 如 20 个 ， 具 有 平面 名 
空间 的 目录 就 不 是 很 有 用 了 。 





a) 平 面 b) REK c) 无 环 图 


图 13-19 目录 结构 
注 : 此 处 有 三 种 不 同 的 方式 来 组 织 文件 的 目录 。 平 面 名 空间 将 所 有 的 文件 组 织 成 单个 的 、 巨 大 的 列表 。 严 格 的 层 
次 结构 将 它们 组 织 成 树 的 形式 ， 无 回路 图 将 它们 组 织 成 任意 的 图 ， 但 图 中 的 路 径 没有 回路 。 


对 更 大 的 文件 集合 ， 人 们 喜欢 将 集合 分 成 更 小 的 组 ， 然 后 对 这 些 分 组 进行 组 织 。 例 如 ， 如 果 你 要 保存 
一 组 发 票 并 且 这 些 发 票数 量 较 少 ， 可 以 使 用 平面 名 空间 来 保存 这 些 发 票 。 当 发 票 的 数量 增长 到 50 张 上 下 
时 ， 你 可 能 会 开始 考虑 组 织 这 些 发 票 的 方式 (如果 你 打算 以 后 再 次 查看 它们 )， 你 可 能 会 将 有 关 家 庭 使 用 
(HLS A K SED, BRS) 的 所 有 发 票 放 入 一 个 文件 夹 中 。 另 一 个 文件 夹 可 能 包含 有 关 家 庭 购买 
(衣服 、 家 庭 清洁 用 具 等 ) 的 发 票 ， 第 三 个 文件 夹 包含 有 关 娱 乐 的 发 票 ， 另 一 个 包含 有 关 旅 游 的 发 票 等 。 
你 将 以 一 组 文件 夹 而 结束 。 当 文件 夹 的 数目 增长 时 ， 你 会 将 包含 同一 年 的 发 票 的 所 有 文件 夹 进行 分 组 ， 如 
果 想 查看 某 一 年 的 发 票 〔 因 为 你 想 填 你 的 所 得 税 表单 )， 可 以 将 文件 夹 的 集合 理解 为 特定 年 的 “文件 夹 的 
文件 夹 "。 这 个 方法 基于 大 多 数 的 物理 订单 系统 : 信息 单元 (对 应 于 文件 ) 被 分 组 成 集合 并 保存 在 文件 
夹 中 。 

四 文件 夹 分 组 到 “超级 文件 夹 ”。 

量 “ 超 级 文件 夹 ”被 放 人 文件 抽 履 里 。 

m 按照 某 些 结构 技术 来 对 文件 柜 中 的 文件 抽 屠 进行 组 织 

B 多 个 文件 柜 可 以 进行 排序 等 。 

这 种 组 织 策略 称 为 层次 文件 组 织 。 

在 计算 机 文件 目录 中 也 广泛 地 使 用 了 上 述 策 略 。 文 件 可 以 被 组 织 成 图 13-19b 所 示 的 层次 名 字 空 间 的 
形式 。 在 使 用 层次 名 字 空 间 的 目录 中 ， 一 个 重要 的 概念 是 文件 集合 也 会 包含 子 自 录 一 一 图 中 标 有 “D” 的 
方 框 。 这 描述 了 一 种 递归 层次 的 思想 : 目录 可 以 包含 一 个 子 自 录 ， 它 和 父 目录 有 相同 的 属性 。 在 层次 文件 
系统 中 ， 有 一 个 单个 的 根 目 录 来 指向 其 他 的 目录 和 文件 。 可 以 从 根 目录 (没有 祖先 的 目录 ) 开始 来 在 层次 
名 字 空 间 中 找到 其 他 的 文件 ， 并 且 可 以 从 根 目录 开始 来 遍历 任何 一 个 子 目 录 。 一 旦 进入 子 目 录 ， 你 可 以 递 
归 地 遍历 它 的 子 目录 。 
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在 一 个 纯 层 次 名 字 空 间 中 ,文件 和 目录 的 集合 形成 了 树 形 数据 结构 ( 见 图 13-19b)。 每 个 目录 和 文件 
指向 一 个 祖先 目录 (除了 根 目 录 ， 根 目录 没有 祖先 )。 树 结构 层次 目录 是 大 多 数 现代 目录 组 织 的 基础 ， 因 
为 它们 允许 递归 地 将 文件 分 成 集合 ， 更 重要 地 是 ， 它 们 对 人 们 来 说 是 简单 自然 的 。 

假设 有 两 个 用 户 ， 每 个 用 户 都 有 自己 的 目录 以 及 子 目 录 ， 它们 想 共享 一 个 文件 (或 文件 子 树 )。 这 可 
以 方便 地 允许 两 个 用 户 的 目录 都 指向 共享 的 子 目 录 来 实现 。 然 而 ， 这 会 导致 结构 不 再 是 一 个 树 形 ， 它 变 成 
一 个 图 (参见 图 13-19c)。 如 果 要 允许 共享 ,文件 系统 在 设计 中 必须 保证 ， 只 有 当 所 有 对 它们 的 访问 路 径 
都 被 删除 时 才 可 以 删除 文件 。 这 通常 是 通过 对 所 有 指向 特定 子 目 录 或 文件 的 目录 的 访问 计数 来 实现 的 。 图 
可 能 是 有 回路 的 一 一 它们 包含 有 从 一 个 结 点 出 发 又 回 到 同一 个 结 点 的 路 径 ， 或 者 可 能 是 无 回路 的 。 基 于 无 
回路 图 的 目录 结构 与 有 更 多 限制 的 树 共 享 很 多 的 特征 。 例 如 ， 在 一 个 子 目录 树 中 对 文件 的 递归 查找 ， 在 一 
个 无 回路 目录 结构 中 也 可 以 确定 ， 但 在 有 回路 的 目录 结构 中 就 可 能 不 能 确定 。 很 多 层次 文件 系统 支持 无 回 
路 结构 ， 但 没有 支持 有 回路 结构 的 。 








TA: 几 个 目录 例子 

Apple Macintosh 的 Finder 

Finder (或 Multifinder) 是 Macintosh 文件 管理 器 的 目录 管理 部 分 ， 在 Macintosh 中 它 是 作为 一 个 用 户 
程序 来 实现 的 。Finder 采用 了 一 个 用 户 界 面 ， 其 中 强调 了 整个 人 - 机 界面 中 的 图 形 化 “点 击 并 选择 ”的 应 
用 模式 。 文 件 被 组 织 成 一 个 用 “桌面 ”作为 根 的 树 形 层次 结构 ， 它 可 以 包含 几 种 不 同 的 设备 (如 硬盘 驱动 
器 和 软盘 驱动 器 )， 每 一 个 都 是 根 的 一 个 子 目录 层次 。 子 目录 在 外 形 上 都 作为 一 个 “文件 夹 ” 来 表示 ， 通 
过 在 窗口 中 打开 文件 夹 可 以 浏览 它 的 内 容 。 在 相应 于 该 目录 的 窗口 中 ， 图 形 化 的 显示 意味 着 列举 文件 夹 中 
可 见 的 所 有 文件 (可 能 通过 滚动 窗口 )。 一 个 文件 可 以 通过 移动 到 “垃圾 桶 ”目录 中 而 被 删除 。 一 个 文件 
可 以 通过 “点 击 并 选择 ”及 “ 拖 动 ”操作 在 设备 之 间 被 拷贝 。 重 命名 是 在 目录 窗口 中 的 一 个 编辑 操作 。 遍 
历 是 通过 打开 和 关闭 文件 夹 来 完成 的 。Finder 使 用 图 形 化 的 用 户 界面 提供 了 所 有 基本 的 目录 管理 操作 。 

微软 的 Windows 系列 所 实现 的 目录 系统 中 ， 使 用 了 类 似 于 Apple Finder 的 语法 和 语义 ,但 是 它们 两 个 
还 是 有 区 别 的 。 


MS-DOS 目录 

DOS 目录 的 操作 界面 是 面向 文本 的 ， 该 界面 由 DOS ARHED 
的 shell 命令 行 解释 器 推出 。 与 Macintosh 中 所 用 的 一 | 
样 ， 机 器 中 的 每 个 设备 都 有 它 自己 的 根 目录 ， 因 而 设备 
列表 可 被 构造 成 文件 的 根 目 录 (参见 图 13-20)。DOS 通 
过 使 用 相对 和 绝对 路 径 名 ， 为 用 户 访问 存储 系统 中 的 文 当前 目录 了 
件 提供 手段 。 相 对 路 径 名 的 最 简单 形式 只 是 一 个 目录 内 
的 文件 名 ， 如 AUTOEXEC.BAT。 可 以 使 用 更 复杂 的 形式 来 GIN PROGRAMS 
访问 目录 中 一 个 子 目 录 的 文件 ， 其 中 要 使 用 目录 的 名 S 
字 。 例 如 ， 如 果 当 前 目录 包含 有 一 个 名 为 BIN 的 子 目 BIN AUTORKEC.BAT nn 
录 ， 并 且 BIN 中 包含 有 一 个 名 为 PATCH 的 文件 ， 那 么 用 
户 可 以 使 用 相对 路 径 名 BIN \ PATCH 来 访问 该 文件 。 路 parca 
径 操作 符 “\ ”可 以 用 于 标识 当前 目录 下 面 的 层次 。 特 
殊 的 文件 名 字 “. .” 表 示 父 目录 ， 因 而 通过 使 用 “..” 图 13-20 DOS 文 件 目 录 
, 并 用 “\ ”连接 ， 就 有 可 能 访问 文件 系统 中 任意 位 置 的 TEs DOS 文 件 目录 是 文件 名 的 层次 结构 。 层 次 的 
文件 。 例如， 如 果 有 一 个 目录 与 当前 目录 有 相同 的 父 目 根 是 “机 器 。 下 一 级 是 机 器 上 的 存储 设备 
录 ， 并 且 父 目录 包含 有 一 个 名 为 mos HAL, HO A MEAR An 、C， 等。 每 个 政委 部 有 和 
目录 中 又 包含 有 一 个 名 为 PRIME.C 的 程序 ， 那 么 该 文件 
的 相对 路 径 名 就 是 : .. \ PROGRAMS \ PRIME.C。 

绝对 路 径 名 是 从 根 目录 开始 遍历 的 。 一 个 形 如 D: \ USER \ GIN \ BIN \ PATCH 的 路 径 名 唯一 地 标识 了 一 
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个 名 为 PATCH 的 文件 ， 它 出 现在 默认 存储 设备 中 USER 目录 下 的 GIN 目录 下 的 BIN 目录 中 。 类 似 地 ， 文 件 
PRIME. C 的 绝对 路 径 名 为 D: \ USER \ PROGRAMS \ PRIME. C, 

目录 操作 是 由 shel 解释 执行 的 。 例 如 ，DIR 命令 列表 目录 内 容 ，RENAME 命令 重 命名 一 个 文件 ， 以 及 
ERASE 命令 删除 一 个 文件 等 。Windows 资源 管理 器 的 用 户 界面 提供 了 “点 击 并 选择 ”方式 来 完成 这 些 功能 ， 
并 且 操 作 系 统 提供 的 文件 管理 器 与 DOS 的 逻辑 目录 结构 相 一 致 。 

UNIX 目录 

UNIX 目录 是 有 向 无 回路 图 ， 即 它们 允许 一 个 文件 出 现在 多 个 目录 中 。UNIX 中 也 使 用 相对 和 绝对 路 
径 名 ， 尽 管 遍历 的 操作 符 为 “/ ”而 不 是 DOS 中 所 使 用 的 “\”。 因 而 UNIX 文件 名 以 “/ ”开头 就 表示 
是 绝对 路 径 名 ， 描 述 了 从 根 到 所 要 访问 的 文件 所 经 历 的 目录 名 。 但 UNIX 不 允许 像 DOS 那样 在 文件 名 中 
有 对 设备 名 的 说 明 。( 然 而 ， 机 器 的 操作 员 可 以 如 13.7 节 所 描述 的 一 样 ， 将 其 他 磁盘 安装 到 当前 目录 中 。) 
如 绝对 文件 名 /usr/gjn/books/opsys/chap13 表明 根 目录 中 包含 有 一 个 条 目 ， 该 条 目 描述 了 名 为 usr 的 一 个 
且 录 ， 该 目录 中 又 包含 有 一 个 名 为 gjn 的 目录 等 ， 经 过 books 和 opsys 目录 到 名 为 chap13 的 文件 。 如 果 当 
前 目录 为 asr/gjn， 那 么 可 以 使 用 相对 路 径 名 books/opsys/chap13 来 访问 同一 个 文件 。 或 者 如 果 当 前 目录 
A/asr/gjn/books, 49 books 有 同一 个 父 目 录 的 目录 programs 中 有 一 个 名 为 prime.c 的 文件 ， 那 么 就 可 以 
通过 字符 串 . . /Programs/prime.c 来 访问 该 文件 。 
E 





13.6 目录 实现 


上 且 录 用 来 标识 文件 和 子 目 录 的 特定 集合 。 月 录 由 一 组 结构 化 的 记录 组 成 ， 每 个 记录 描述 了 集合 中 的 一 
个 文件 或 子 目录 。 每 个 记录 也 必须 提供 足够 的 信息 来 允许 文件 管理 器 确定 文件 的 所 有 已 知 特征 ， 例 如 ， 名 
字 、 长 度 、 建 立时 间 、 最 后 访问 时 间 、 所 有 者 、 保 护 状 态 等 。 


13.6.1 目录 项 


在 大 多 数 当代 操作 系统 中 ， 目 录 是 作为 结构 化 文件 来 实现 的 ， 每 个 记录 包含 了 外 部 文件 描述 表 的 指针 
和 其 他 足够 的 信息 ， 以 在 存储 设备 上 查找 外 部 文件 描述 表 。 例 如 ， 记 录 包 含 了 外 部 文件 描述 表 的 文件 名 和 
磁盘 地 址 (如 在 Linux P), 或 文件 名 、 文 件 扩展 类 型 、 建 立时 间 和 日 期 、 文 件 大 小 、 文 件 第 一 个 块 的 地 
址 (如 在 MS-DOS 文 件 系统 中 )。 

文件 管理 目录 命令 利用 这 些 目 录 项 来 实现 它们 的 功能 。 例 如 ， 通 过 一 步 步 地 检查 目录 中 的 每 个 目录 项 
记录 ， 报 告 相应 文件 的 信息 来 实现 列举 。 注 意 ， 如 果 目 录 项 仅 包 含 外 部 文件 描述 表 的 文件 名 和 磁盘 地 址 ， 
在 列举 命令 报告 如 拥有 者 、 文 件 长 度 等 信息 之 前 ， 列 举 命令 需要 读 取 外 部 文件 描述 表 。 文 件 管理 器 设计 者 
需要 仔细 权衡 目录 项 中 保持 的 文件 描述 信息 量 与 仅 出 现在 外 部 文件 描述 表 中 的 信息 。 

令 人 惊奇 的 是 ， 文 件 管理 器 需要 解决 的 一 个 复杂 问题 是 能 够 处 理 长 文件 名 。 早 期 的 UNIX 和 Windows 
操作 系统 版 本 通常 都 将 文件 名 的 长 度 限 制 为 8 个 字符 。 通 过 仅 保留 8 个 或 更 少 字符 名 空间 ， 很 容易 来 定义 
目录 项 的 结构 。 文 件 管理 器 大 约 在 1990 年 开始 支持 长 名 字 。 这 使 得 文件 管理 器 设计 者 需要 进行 改进 来 存 
储 文件 名 中 的 额外 字符 。 在 一 些 系 统 中 (如 MS-DOS), 文件 管理 器 简单 地 使 用 额外 目录 项 的 空间 来 保存 
名 字 中 的 额外 字符 。 这 使 得 基本 的 目录 项 不 用 改变 ， 仍 然 可 以 使 用 旧 的 短文 件 名 格式 。 如 果 文 件 管理 器 并 
不 试图 处 理 名字 扩 展 块 ， 则 文件 管理 器 的 旧 的 部 分 并 不 需要 修改 就 可 以 进行 工作 。 另 一 种 方法 (通常 在 
UNIX 文件 管理 器 中 使 用 ) 就 是 在 每 个 目录 中 建立 一 个 堆 ， 当 要 存储 一 个 长 文件 名 时 ， 需 要 从 堆 中 分 配 字 
符 块 。 

13.6.2 打开 一 个 文件 

当 在 层次 目录 中 打开 一 个 文件 时 ， 文 御 的 外 部 描述 表 必 须 通过 包含 文件 的 目录 来 得 到 。 在 UNIX 绝对 

有 路径 名 /sr/gjn/books/opsys/chap13 的 例子 中 ， 在 chap13 可 以 被 打开 进行 读 、 写 之 前 ， 系 统 需 要 在 /usr/ 


gjn/books/opsys 中 找到 它 的 文件 描述 表 。 但 在 opsys 目录 中 发 现 该 条 目 之 前 ， 又 必须 在 /usr/gjn/books 中 
找到 opsys 目录 的 文件 描述 表 等 。 因 而 ， 当 通过 一 个 绝对 文件 名 打开 文件 时 ，open O 例 程 必须 首先 查找 
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示例 中 的 usr。 结 果 路 径 名 中 的 第 一 级 目录 被 打开 ， 并 且 继 续 查 找 第 





根 目 录 来 找到 第 一 级 目录 的 表 项 
二 级 目录 ， 依 此 类 推 。 

文件 系统 的 典型 实现 允许 使 用 通常 文件 中 相同 的 基本 存储 机 制 来 实现 每 个 目录 。 目 录 中 存储 的 信息 被 
保存 在 -- 个 块 列表 中 ， 可 以 由 相应 文件 描述 表 管理 。 结 果 是 ， 在 路 径 名 中 所 出 现 的 每 个 目录 在 打开 过 程 中 
都 至 少 要求 一 次 磁盘 读 操作 。( 如 果 打 开 操作 中 分 配 缓冲 并 且 填 充 它 们 ， 那 么 路 径 名 中 的 每 个 目录 在 打开 
过 程 中 会 引起 多 次 磁盘 读 操 作 。) 打开 一 个 文件 需要 的 时 间 开 销 与 路 径 名 长 度 成 比例 ， 这 与 路 径 为 相对 路 
径 名 还 是 绝对 路 径 名 无 关 。 

文件 管理 器 可 以 将 目录 信息 缓存 在 主 存 中 ， 以 此 节省 遍历 目录 图 的 开销 。 如 前 所 述 ， 当 存储 设备 上 的 
信息 被 缓存 到 主 存 时 ,文件 管理 器 必须 要 注意 保持 文件 描述 表 的 一 致 性 。 


13.7 文件 系统 


现代 计算 机 系统 常常 配置 有 多 个 存储 设备 ， 并 且 大 容量 的 磁盘 常常 被 分 成 逻辑 上 不 同 的 存储 设备 。 有 - 
些 存储 设备 还 允许 用 户 在 固定 设备 上 (如 软盘 、Zip 磁盘 和 CD 一 ROM 等 ) 放置 不 同 的 记录 媒体 。 文 件 管 
理 器 要 实现 存储 在 不 同 设备 上 的 目录 层次 ， 并 将 这 些 不 同 的 层次 组 合成 单个 的 系统 层次 。 

在 文件 的 层次 集合 中 一 一 一 般 来 说 是 树 形 结构 ， 尽 管 在 如 图 13-19c 所 示 的 集合 中 有 共享 文件 和 目 
录 一 一 其 中 仅 有 一 个 根 目 录 。 文 件 管理 器 使 用 可 移动 媒体 (其 中 包含 了 这 样 的 层次 文件 集合 ) 的 设备 可 以 充 
分 利用 这 种 思想 的 优势 。 软 盘 、CD-ROM 或 其 他 可 移动 媒体 上 的 文件 集合 被 组 织 成 文件 和 直接 子 目录 的 无 回 
路 图 ， 并 且 只 有 单个 的 根 目 录 。 为 了 遍历 这 个 层次 结构 ， 可 以 从 根 目录 开始 并 沿 着 图 中 的 路 径 进 行 查找 。 同 
样 的 思想 可 扩展 到 单个 的 磁盘 和 磁盘 分 区 中 : 假定 每 个 磁盘 或 磁盘 分 区 是 以 单 根 无 回路 图 来 组 织 的 ， 意 味 着 
从 磁盘 或 磁盘 分 区 的 根 目录 处 开始 ， 可 以 遍历 到 达 磁 盘 中 的 每 个 文件 。 具 有 单个 根 目 录 的 文件 层次 集合 称 为 
文件 系统 。 每 个 可 移动 媒体 包含 了 自己 的 文件 系统 ， 每 个 磁盘 分 区 也 包含 了 自己 的 文件 系统 。 

文件 系统 是 具有 单 根 目录 的 文件 和 目录 的 原子 集合 。 文 件 系统 是 一 个 有 用 的 系统 管理 单元 ， 因 为 它 对 
应 于 可 移动 媒体 上 的 文件 集合 ， 它 也 是 整个 辅 存 系统 的 一 部 分 。 本 章 末 的 实验 13.1 中 描述 了 MS-DOS 的 
FAT 文件 系统 。 








AP: ISO 9660 文件 系统 

CD-ROM 使 用 的 文件 系统 是 由 ISO 9660 规范 定义 的 。 这 个 文件 规范 被 每 个 使 用 CD 或 DVD 驱动 器 的 
操作 系统 所 支持 。ISO 9660 规范 来 自 于 “High Sierra” 规 范 ， 它 是 在 1986 年 由 一 组 产业 专家 所 设计 的 (他 
们 在 美国 西部 塔 霍 湖上 一 家 名 为 High Sierra 的 宾馆 中 进行 讨论 的 结果 ， 所 以 这 个 规范 命名 为 High Sierra) 
[Bechtel，2002])。 即 使 在 最 初 的 High Sierra 和 ISO 9660 规范 间 有 区 别 ， 但 是 这 两 个 名 字 都 指 的 是 ISO 
9660 标准 。 

文件 系统 需要 对 CD-ROM 进行 管理 的 着 重点 是 读 | 向 区 0~15 | 系统 区 (未 用 标准 定义 ) 
文件 ,而 不 是 如 对 媒体 的 写 操作 等 更 一 般 的 操作 (建立 、 
删除 .拷贝 重 命名 等 )。 这 意味 着 决 管理 可 以 极 大 地 简 | METS | 主 党 描述 表 
化 ,因为 块 在 ISO 9660 文件 系统 中 从 来 不 会 分 配给 一 个 | ERK) | 辅 卷 描述 表 (可 选 ) 























存在 的 文件 。 其 次 ,CD-ROM 物理 上 将 信息 存储 在 单个 分 区 描述 表 ( 可 选 ) 
的 螺旋 形 磁道 上 ( 见 5.5 节 ) ,所 以 它们 的 寻 道 时 间 相 对 引导 描述 表 ( 可 选 ) 
RUA FOO ) , 卷 由 2048 个 — 

FRAN volume), 2048 个 字 节 7 
KROKAN AR. E 13-21 A EKET Xi PERENA 到 4 
系统 的 组 织 。 系 统 区 域 (最 初 的 16 个 扁 区 ,标准 中 对 其 RAR 
格式 没有 定义 ) 可 以 包含 对 CD-ROM 进行 写 操作 需要 的 了 目录 和 文件 
信息 (例如 ,如 果 CD-ROM 包含 了 可 引导 的 操作 系统 , 它 图 13-21 ISO 9660 文件 系统 组 织 


会 包含 引导 记录 )。 媒 体 的 其 余部 分 称 为 数据 区 (data $: 这 幅 图 显示 了 ISO 9660 文件 系统 上 的 信息 
area) 。 数 据 区 的 第 一 部 分 包含 了 卷 描述 表 , 其 余部 分 包 的 所 有 结构 。 





X HER 343 











含 了 目录 和 文件 。 

主 卷 描述 表 (primary volume descriptor) 包 含 了 数据 区 的 基本 信息 , 辅 卷 描 述 表 、 分 区 描述 表 和 引导 描述 
表 ( 见 图 13-22)[ISO 9660,1999] 提供 其 他 的 一 些 信息 。 此 处 没有 对 描述 表 中 的 每 个 域 进行 描述 ,我 们 仅 介 
绍 一 些 对 实现 文件 管理 器 很 重要 的 东西 : 卷 大 小 包含 了 一 个 长 度 域 ,文件 管理 器 使 用 这 个 域 来 确定 供 卷 描述 
表 使 用 的 数据 区 有 和 多大。 文件 系统 使 用 字 节 141-156 中 的 信息 来 确定 存放 文件 系统 内 容 的 开始 扇 区 位 置 。 
特别 地 , 字 节 157 一 190 用 来 查找 文件 系统 中 的 根 目录 。 

.文件 系统 使 用 路 径 表 来 表示 每 个 目录 ,如 上 所 述 , 主 卷 描述 表 标识 了 根 有 目录 , 它 也 标识 了 路 径 表 ,路 径 表 
包含 了 指向 每 个 目录 的 指针 (也 就 是 说 ,路 径 表 是 文件 系统 中 的 目录 列表 , 它 有 一 个 直接 的 指针 指向 包含 目 
FRAK) 

目录 包含 了 可 变数 目的 目录 项 ,每 个 目录 项 有 图 13-23 所 示 的 格式 。 目 录 操 作 使 用 这 些 信 息 来 管理 给 
定 目录 的 文件 集合 。( 目 录 与 父 目 录 的 层次 关系 保持 在 路 径 表 中 。) 


























Byte 1: 0x01( 这 是 主 卷 描述 表 ) 
Bytes 2-6: 0xCD001( 这 是 一 个 1809660 4%) 
Byte 7: 版 本 
Byte 8: (未 用 ) Byte 1: 目录 记录 长 度 
Bytes 9 — 40: 系统 标识 . Byte 2: 扩展 属性 记录 长 度 
Bytes 41 一 72: 卷 标识 ras 
3-10: 1 i 
Bytes 73 — 80: (未 用 ) Bytes 文件 第 I RNM 
Bytes 81 - 88: 卷 空间 大 小 Bytes 11-18: 文件 中 的 块 数 
Bytes 89 - 120: (未 用 ) Bytes 19-25: ”生成 时 间 和 日 期 
Bytes 121 - 124; 卷 集 大 小 二 二- 
2 : MPI 
Bytes 125-128: ŠIS Byte 26 文件 标 
Bytes 129 - 132: 逻辑 块 大 小 Byte 27; 文件 单位 长 度 
Bytes 133 ~ 140: 路 径 表 大 小 (continued next page) Byte 28: 块 间 间隔 大 小 
Bytes 141 ~ 156: 路 径 表 位 置 _ a, 
Bytes 157-190: 根 目录 的 目录 记录 Bytes 29°32; 卷 序列 号 
Bytes 191 - 882; oo. Byte 33: 文件 标识 符 长 度 
Bytes 865 - 882: 卷 有 效 日 期 和 时 间 Byte 34 ~ x: 文件 标识 符 
Byte 883: (保留 ) L, -> 
Bytes 884-1395: ”应 用 使 用 Bytes x= y: SCE SOR 
Bytes 1396 - 2048; “保留 用 于 将 来 标准 化 ) Bytes y—end: 保留 为 系统 使 用 
图 13-22 FERREE 13-23 ISO 9660 目录 项 
TE: 主 卷 描述 表 包 含 了 数据 区 的 基本 信息 , 辅 卷 描述 表 、 分 注 : 目录 项 为 访问 特定 的 目录 提供 了 细节 
区 描述 表 和 引导 描述 表 提 供 其 他 的 一 些 信息 。 信息 。 


最 后 , 子 目 录 和 文件 的 信息 被 写 人 根 目录 随后 的 扇 区 中 。 每 个 子 目 录 和 文件 存储 在 一 组 连续 的 扇 区 中 
” E 





13.7.1 安装 文件 系统 


当 计 算 机 系统 启动 时 ,需要 标识 系统 引导 盘 : 这 对 获得 主 引导 记录 来 说 很 重要 , 它 也 定义 了 包含 根 目录 
的 逻辑 设备 ,操作 系统 的 文件 系统 就 处 于 其 上 。 每 次 当 可 移动 媒体 被 连接 到 相应 的 存储 设备 时 , 它 的 文件 系 
统 被 “嫁接 "到 基文 件 目录 层次 中 。 UNIX 安装 (mounting) 和 和 印 载 (dismounting) 可 移动 媒体 使 用 的 模型 对 大 
多 数 文件 管理 器 来 说 是 相同 的 ,所 以 这 个 描述 可 用 来 表示 任何 系统 操作 。 

UNIX 文件 管理 器 使 用 系统 调用 使 得 文件 系统 被 结合 到 一 个 目录 中 。mount 命令 将 一 个 文件 系统 添加 到 一 个 
已 存在 的 目录 中 。 当 相应 的 可 移动 媒体 连接 到 系统 上 时 , 它 会 用 被 安装 文件 系统 的 根 取代 基文 件 系统 的 目录 。 

例如 ,假定 系统 包含 了 CD-ROM 驱动 器 , 当 一 个 特定 的 CD- ROM 盘 放 人 设备 时 ,mount 操作 将 可 移动 
媒体 连接 到 基文 件 系统 层次 中 的 信息 通知 文件 管理 器 。 被 安装 的 文件 系统 的 根 目录 是 作为 基文 件 系统 层次 
中 的 子 目录 来 看 待 的 ( 见 图 13-24)。 在 这 个 例子 中 ,在 安装 FS 后 ,文件 系统 FS 上 名 为 “bar” 的 文件 有 绝对 路 
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18% /foo/xyz/bar , CEA T ERARA “foo” Al“ / "目录 。 在 安装 好 临时 的 文件 系统 后 ,就 可 以 使 用 通 
常 的 目录 操作 来 访问 其 上 的 文件 了 ,包含 了 相对 路 径 名 、 绝 对 路 径 名 以 及 目录 遍历 操作 。 当 文件 系统 被 卸载 
时 ,会 发 送 一 个 unmount 命令 给 文件 管理 器 。 这 个 命令 阻止 了 对 文件 系统 中 不 存在 部 分 的 访问 。 





在 foo 上 安装 FS 





a) 安装 FS 之 前 b) 安装 FS 之 后 


图 13-24 UNIX mount 命令 
注 : mount 命令 用 来 将 一 个 文件 系统 与 系统 的 根 文件 系统 相 结合 。 当 安装 文件 系统 时 ,安装 点 的 目录 项 指向 被 安装 
文件 系统 的 根 。 


可 以 使 用 mount: 命令 来 动态 地 建立 一 个 统一 的 文件 层次 结构 ,即使 文件 层次 结构 的 不 同 部 分 是 在 不 同 
设备 或 磁盘 分 区 上 的 不 同文 件 系统 。 


13.7.2 异 构 文件 系统 


安装 机 制 为 文件 管理 器 提供 了 一 种 方法 ,可 以 将 在 不 同 设备 上 实现 的 文件 系统 无 锋 地 结合 在 一 起 。 在 
安装 一 个 文件 系统 后 ,不 用 考虑 设备 在 什么 地 方 文件 或 目录 实际 上 存储 在 哪儿 ,就 可 以 遍历 系统 的 文件 层 
次 结构 。 这 意味 着 每 个 文件 系统 有 一 定 的 基本 信息 ,来 描述 它 自己 的 文件 层次 以 及 存储 设备 的 细节 。 通过 
将 不 同 的 文件 系统 结合 在 一 起 所 建立 起 来 的 文件 层次 结构 导致 了 异 构 文 件 系 统 (heterogeneous files system) 
的 思想 的 出 现 ,各 个 成 员 文 件 系统 不 必要 都 有 相同 的 类 型 。 

为 什么 我 们 要 关注 不 同 种 类 的 文件 系统 的 结合 呢 ? 最 明显 的 情况 就 是 用 于 可 移动 媒体 :大 多 数 的 
CD-ROM 文 件 系 统 格式 化 成 一 致 的 ISO 9660 标准 。 这 使 得 音频 CD - ROM 播放 器 可 以 对 磁盘 进行 读 取 , 计 
算 机 CD - ROM 驱动 器 可 以 访问 文件 ,DVD 播放 器 也 能 访问 文件 。 更 进一步 说 ,作为 一 个 计算 机 设备 ,媒体 
可 以 通过 Macintosh、Windows 计算 机 和 UNIX 计算 机 来 访问 。 这 是 促进 异 构 文件 系统 发 展 的 一 个 例子 :对 
于 装 有 不 同 操作 系统 .具有 不 同文 件 系统 格式 的 计算 机 ,都 有 可 能 需要 读 取 ISO 9660 格式 的 CD-ROM. 3 
一 个 更 实际 的 、 促 使 异 构 文 件 系 统 在 UNIX 中 出 现 的 原因 是 ;多 年 来 ,软盘 的 MS 一 DOS 格式 占据 了 主导 地 
位 ,如 果 在 UNIX 系统 中 有 一 个 软盘 驱动 器 ,并 且 你 想 要 读 / 写 软盘 ,这 需要 UNIX 机 器 能 够 安装 软盘 ,并 读 
写 媒体 上 的 MS 一 DOS 文件 系统 。 

Linux 文件 管理 器 采用 了 一 种 称 之 为 康 拟 文件 系统 (virtual file system, VES) 开 关 的 技术 来 处 理 异 构 文件 
系统 (起 初出 现在 AT&T System V UNIX 的 早期 设计 中 )。VFS 背后 的 思想 是 文件 管理 器 有 一 个 文件 系统 
相关 部 分 和 一 个 文件 系统 无 关 部 分 。 基 于 VFS 文件 管理 器 的 文件 系统 相关 部 分 是 为 每 种 在 计算 机 中 使 用 
的 文件 系统 类 型 而 编写 的 。 例 如 ,Linux 文件 管理 器 的 文件 系统 相关 部 分 有 :MS - DOS 文件 系统 ,ISO 9660 
文件 系统 ,还 有 它们 自己 的 文件 系统 ext2( 在 2.2 版 本 以 及 更 早 的 版 本 中 ), 见 图 13-25。 管 理 器 的 文件 系统 
相关 部 分 的 目的 是 为 了 能 够 读 写 文件 系统 。 管 理 器 的 文件 系统 无 关 部 分 的 目 的 是 为 文件 管理 器 实现 通用 算 
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法 :列举 ,拷贝 .删除 、 重 命名 和 目录 遍历 。 
导出 特定 操作 系统 的 API 


文件 管理 回 的 文 
件 系统 无 关 部 分 


虚拟 文件 系统 开关 


文件 管理 器 的 文件 管理 器 的 文件 管理 器 的 
MS-DOS 部 分 ISO 9660 部 分 exD 部 分 . 


图 13-25 ”基于 VES 的 文件 管理 器 
注 : 基于 VFS 的 文件 管理 器 分 为 文件 系统 相关 部 分 和 文件 系统 无 关 部 分 。 无 关 部 分 实现 文件 管理 器 的 通用 操作 (如 列 
举目 录 内 容 )。 相 关 部 分 隐藏 了 所 有 文件 系统 特定 的 操作 和 格式 。 


设计 一 个 基于 VFS 文件 系统 的 基本 方法 是 :为 管理 器 的 文件 系统 无 关 部 分 定义 它 自己 的 内 部 文件 描述 
表 。 例 如 ,Linux 文件 管理 器 定义 了 基于 传统 UNIX inode 的 内 部 描述 表 , 这 意味 着 ,文件 管理 器 的 文件 系统 
无 关 部 分 和 传统 的 UNIX 文件 管理 器 是 一 样 的 [ Nutt,2001]。 每 个 文件 系统 相关 模块 定义 了 一 组 函数 ,可 以 
用 来 读 取 磁 盘 、 操 作 外 部 文件 描述 表 并 对 文件 和 目录 进行 操作 。 这 些 函数 被 注册 到 管理 器 的 文件 系统 无 关 
部 分 , 当 需 要 对 磁盘 上 的 信息 进行 读 取 , 或 对 文件 系统 中 的 文件 描述 表 、 文 件 目录 进行 操作 时 ,文件 管理 器 就 
可 以 调用 这 些 函 数 。 

虚拟 文件 系统 在 现代 文件 管理 器 中 获得 了 极 大 的 成 功 。 操 作 系统 可 以 安装 使 用 了 不 同文 件 系 统 定义 的 
可 移动 媒体 ,并 且 可 以 读 写 这 些 媒体 。 如 我 们 将 在 第 16 章 中 所 看 到 的 ,这 些 异 构 文 件 系统 是 实现 远程 文件 
服务 器 的 基础 。 


13.8 小 结 


文件 是 计算 机 系统 中 管理 和 存储 数据 的 主要 手段 。 操 作 系统 所 支持 的 文件 可 以 是 简单 的 字 节 流 、 记 录 
流 或 者 更 为 复杂 的 记录 结构 。 字 节 流 文件 的 优势 是 :逻辑 上 它 可 以 被 当 作 主 存 一 样 进 行 数据 访问 。 它 的 缺 
陷 是 大 多 数 应 用 软件 为 了 使 它 存放 适合 于 应 用 使 用 的 数据 ,需要 增加 数据 结构 定义 并 且 自 行 处 理 。 不 同 的 
操作 系统 提供 不 同 程度 的 结构 化 数据 支持 。 一 方 是 UNIX 和 DOS/Windows, 它们 提供 了 最 小 的 结构 化 数据 
支持 ,期 望 由 系统 软件 增加 数据 结构 化 的 机 制 , 而 对 立 的 一 方 则 提供 了 高 级 的 文件 系统 支持 。 

文件 实现 将 字 节 流 或 结构 化 记录 转换 到 存储 设备 上 的 物理 块 映像 。 顺 序 存储 设备 在 记录 和 物理 块 之 间 
提供 了 自然 的 映射 关系 ,因为 文件 被 依次 映射 到 设备 的 连续 空间 上 。 将 记录 映射 到 随机 设备 块 是 一 个 更 具 
挑战 性 的 问题 ,因为 映射 可 以 任意 地 复杂 。 当 在 随机 访问 的 存储 设备 中 实现 映射 时 , 块 管理 就 成 为 文件 系统 
的 主要 任务 。 l 

目录 为 用 户 提供 了 一 个 路 径 图 。 系 统 中 的 存储 设备 可 能 包含 有 成 千 上 万 的 文件 ,目录 提供 了 一 种 系统 
的 方式 来 命名 并 且 定 位 这 些 文件 。 文 件 管理 器 的 目录 管理 部 分 提供 了 一 些 功能 ,允许 用 户 在 目录 结构 中 定 
位 .拷贝 重 命名 以 及 删除 文件 ,并 且 管 理 跨 设 备 (包括 可 移动 媒体 的 设备 在 内 ) 的 文件 结构 。 


13.9 习题 


1. 编写 一 个 程序 来 看 看 UNIX 的 内 核 write ) 操 作 如 何 处 理 字 节 流 内 部 的 字 节 。write( ) 操 作 是 插入 一 
个 字符 块 . 还 是 对 一 个 字符 块 进行 覆盖 写 或 者 是 使 用 其 他 的 策略 呢 ? 

2. 编写 一 个 程序 来 看 看 Windows 内 核 严 iteFile() 操 作 如 何 处 理 字 节 流 内 部 的 字 节 。WriteFile() 操 作 
是 插入 一 个 字符 块 . 还 是 对 一 个 字符 块 进行 覆盖 写 或 者 是 使 用 其 他 的 策略 ? 

3. 解释 一 下 用 于 UNIX 文件 1/0 中 的 0_ APPEND 标志 位 是 什么 意思 。 

4. 解释 一 下 在 Windows 文件 I/O HF , 4 dwFileAccess 参数 的 值 为 0O_ FILE APPEND DATA 标志 时 ,表示 
什么 意思 。 
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8. 


9. 


10. 


11. 


12. 


13. 


14. 


15. 


16. 


17. 


. 列举 一 个 适用 顺序 访问 文件 的 应 用 实例 或 者 应 用 领域 。 应 该 说 明 在 你 列举 的 领域 中 ,在 某 些 情形 下 


信息 必须 被 随机 访问 ,而 其 他 时 间 它 又 必须 被 顺序 访问 。 


. 假设 一 个 磁盘 的 空闲 空间 列表 表明 下 列 存储 块 是 可 用 的 :13 个 块 .11 个 块 .18 个 块 .9 个 块 以 及 20 个 


块 。 如 果 有 一 个 分 本 10 个 连续 块 给 文件 的 请 求 ， 

a. 采用 首先 适合 分 配 策略 , 哪 一 个 块 将 被 分 配给 文件 ? 
b. 采用 最 佳 适合 分 配 策略 , 哪 一 个 块 将 被 分 配给 文件 ? 
c. 采用 最 大 适合 分 配 策略 , 哪 一 个 块 将 被 分 配给 文件 ? 


. 在 使 用 链接 列表 方法 实现 的 空闲 列表 中 ,车 把 一 个 要 释放 的 连续 磁盘 块 加 入 到 空闲 列表 中 ,那么 


将 请 求 多 少 次 设备 操作 (例如 ,磁盘 肩 区 的 read( ) 和 write())? RAMA WEAR LIN we 
的 操作 次 数 吗 ? 

当 采 用 块 状 态 映射 方法 实现 空闲 列表 时 ,将 一 个 要 释放 的 连续 磁盘 块 加 入 到 空闲 列表 中 ,那么 它 将 
请 求 多 少 次 设备 操作 ? 

解释 一 下 为 什么 一 个 支持 索引 顺序 文件 的 文件 系统 ,不 能 期 望 与 真正 的 顺序 访问 文件 有 相同 的 性 能 
级 别 。 

假设 一 个 文件 系统 基于 索引 分 配 策略 来 管理 块 。 假 定 每 个 文件 有 一 个 目录 项 ,该 目录 项 可 给 出 文 
件 名 字 、 第 一 个 索引 块 以 及 文件 的 长 度 。 第 一 个 索引 块 依次 指向 249 个 文件 块 并 且 指 向 下 一 个 索 
引 块 。 如 果 文 件 的 当前 位 置 在 逻辑 块 2010 处 ,并且 下 一 -个 操作 将 要 访问 逻辑 块 308 ,那么 必须 从 磁 
盘 中 读 取 多 少 个 物理 块 ? 解释 一 下 你 的 答案 。 

假设 一 个 UNIX 磁盘 块 中 将 保存 2048 个 磁盘 地 址 。 那么 只 需 使 用 直接 指针 的 最 大 文件 是 多 少 ? 使 
用 单间 接 指针 的 容量 呢 ? 双重 间接 指针 的 容量 呢 ? 三 重 间接 指针 的 容量 呢 ? 

在 早期 版 本 的 DOS 文件 系统 中 ,对 磁盘 驱动 器 的 可 寻 址 空间 有 一 个 32MB 的 限制 。 基 于 本 章 中 目 
录 和 文件 的 描述 ,列举 引起 限制 的 一 些 可 能 情形 。 

假设 一 个 文件 系统 像 DOS 一 样 进行 组 织 ,并 且 设备 索引 中 包含 有 64KB 个 指针 。 解 释 一 下 如 何 设 
计 文 件 管理 器 来 使 用 64KB 个 指针 访问 512MB 磁盘 上 每 个 512 字 节 的 块 。 

文件 系统 检验 程序 常常 利用 块 状态 映射 来 识别 未 分 配 的 磁盘 块 。 基 本 思想 是 把 映射 拷贝 到 检验 程 
序 的 地 址 空间 中 ,同时 扩展 映射 位 表示 更 多 可 能 的 块 状态 (例如 ,已 分 配 、 未 分 配 、 复 制 分 配 、 已 经 检 
查 过 等 )。 设 计 一 种 算法 使 用 块 状态 表 来 检查 磁盘 ,查看 是 否 磁盘 中 的 每 个 块 仅 出 现在 一 个 文件 中 
或 空闲 列表 中 。 

检查 你 的 实验 机 器 中 的 源 代码 ,查看 在 你 的 UNIX 版 本 中 所 使 用 的 inode 的 详细 信息 。 你 将 在 头 文 
件 中 发 现 inode 的 结构 , 它 的 确切 位 置 将 取决 于 你 所 使 用 的 UNIX 版 本 。 编 写 一 个 表 列 出 结构 中 的 
每 个 域 及 其 类 型 。 也 写 一 个 描写 域 目 的 的 25 字 ( 或 小 于 ) 说 明 。 

使 用 一 个 文本 编辑 器 来 检查 计算 机 中 保存 你 的 电子 邮件 的 邮件 文件 。 假 设 它 类 似 于 Berkeley 邮件 
系统 ,你 应 该 能 够 识别 出 消息 的 界限 ,同样 可 以 识别 出 消息 的 发 送 者 .接收 者 .主题 行 等 。 编 写 -种 
访问 方法 来 读 取 这 种 邮件 文件 ,并 且 打印 输出 一 个 索引 同时 带 有 每 个 邮件 的 一 行 信息 ,每 行 中 应 该 
打印 消息 的 顺序 号 .发送 者 .消息 发 送 的 时 间 和 日 期 ,以 及 主题 域 的 前 20 个 字符 。 

阅读 msdn. microsoft.com 上 关于 WriteFile( ) 的 文档 ,再 用 自己 的 语言 描述 在 Windows 上 如 何 实现 
ZEE 1/0, 


- 实现 两 个 UNIX 函数 从 字 节 流 读 、 写 可 变 大 小 的 记录 ,其 中 例 程 的 用 户 参 数 说 明 信 息 被 读 取 的 方式 


(格式 化 或 非 格式 化 )。 使 用 下 列 的 函数 原型 ; 


int readRecord( int fid, char * record, char * specifier); 
int writeRecord(int fid, char * record, char * specifier); 


(这 往往 是 通过 使 用 stdio 库 开发 将 特殊 应 用 记录 格式 输出 到 文件 管理 器 的 一 种 通常 方法 。) 
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实验 13.1: 一 个 简单 的 文件 管理 器 


- [本 实验 可 以 在 Windows 9x/Me, Windows NT. Windows 2000 或 者 UNIX ASE FEM. ‘| 
文件 管理 器 通常 是 操作 系统 中 最 大 的 一 部 分 ,尽管 它 没有 最 复杂 的 算法 或 数据 结构 。 通 常 ,文件 管理 器 
的 关键 性 部 分 至 少 这 些 部 分 在 本 章 中 被 作为 低层 进行 描述 ,是 在 操作 系统 中 实现 的 。 因 为 它 的 大 小 以 
及 是 核心 模式 软件 这 种 事实 ,使 用 一 个 真正 的 文件 管理 器 进行 实验 是 困难 的 。 在 本 实验 中 ,通过 编写 一 个 简 
单 的 .用户 空间 的 文件 管理 器 ,你 将 得 到 一 些 使 用 文件 管理 器 技术 的 体验 。 
一 个 产品 级 的 文件 管理 器 非常 复杂 ,所 以 你 需要 在 设计 和 实现 你 的 文件 管理 器 前 作出 一 些 简 化 的 假设 : 
m 你 的 磁盘 上 的 文件 描述 表 将 恰好 占 一 个 磁盘 块 。 磁 盘 上 的 文件 描述 表 只 需 包 含 最 少 的 信息 : (1) 一 个 
由 6 个 或 更 少 字符 组 成 的 文件 名 ; (2) 每 个 文件 最 多 在 4 个 磁盘 块 中 (你 可 以 使 用 2 个 字 节 的 块 地 
址 )。 
BRAS) 
定 这 个 值 )。 
E 目录 只 需要 包含 描述 文件 的 最 少 信息 一 一 只 要 能 够 使 你 的 文件 管理 器 运行 。 
你 也 需要 注意 下 面 几 点 : 
B 不 实现 文件 共享 一 一 没有 锁 。 
n 不 实现 像 读 、 写 或 者 执行 这 样 的 文件 模式 。 
© 在 文件 系统 中 不 包括 任何 保护 和 验证 机 制 。 
E 不 实现 路 径 名 , 仅 在 当前 目录 中 进行 。 
上 不 实现 缓冲 。 
A 部 分 
要 求 文件 管理 器 实现 下 面 的 API: 

















比如 说 ,每 个 块 50 个 字 节 (在 设计 好 了 你 的 磁盘 上 的 文件 描述 表 后 ,可 以 最 后 确 


int fLs(); 

int fOpen(char *name); 

int fClose(int fileID); 

int fRead(int fileID, char *buffer, int length); 

int f£Seek(int fileID, int position); 

一 般 来 说 ,fopen() .fClose( )、fRead( ) 和 fSeek() 函 数 的 功能 和 UNIX 内 核 函数 open() .close() read() 和 lseek 
(相似 (除了 假定 中 简化 的 行为 )。 例 如 ,fopen( ) 没 有 标志 参数 ,所 以 你 的 函数 应 该 等 价 于 内 核 函 数 中 使 用 0_RDRR 
10_ CREET。fLs() 函 数 应 该 输出 系统 知道 的 关于 文件 的 所 有 信息 ,如 果 检 测 到 错误 就 返回 -1 ,否则 为 0。 

使 用 下 面 的 磁盘 接口 : 


#define NUM_BLOCKS 100 
#define BLOCK SIZE 50 


void initDisk(); 

int dRead(int addr, char *buf); 
你 也 可 以 增加 少数 几 个 例 程 到 API 中 一 一 例如 ,如 果 你 希望 在 第 一 次 使 用 文件 管理 器 之 前 对 它 进 行 初始 
化 ,尽管 这 并 不 是 必须 的 。 如 果 你 觉得 需要 ,那么 可 以 增加 一 个 fent1/ioct1l 命令 。 

B 部 分 

要 求 文件 管理 器 实现 下 面 的 API: 


int fMkdir(char *name); 
int fCd(char *name); 
int fWrite(int fileID, char *buffer, int length); 


一 般 来 说 ,fWrite( ) 函 数 的 功能 应 该 类 似 于 UNIX 内 核 write() 函 数 ,除了 假定 中 简化 的 行为 之 外 。 它 返回 
函数 调用 实际 所 写 的 字 节 数 。fMkdir( ) 函 数 应 该 建立 有 名 目录 ,如 果 检 测 到 错误 就 返回 - 1, 否则 为 0。fcd 
0) 函数 改变 当前 的 目录 到 有 名 目录 (如 果 存 在 ) ,如 果 检 测 到 错误 就 返回 - 1, 否则 为 0。 
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C 部 分 

编写 一 个 驱动 程序 来 检测 每 项 功能 和 特征 (如 子 目 录 )。 

扩展 

注意 ,你 可 以 利用 实验 5.1 中 用 户 空间 的 软盘 设备 驱动 程序 来 解决 这 种 问题 。 这 将 要 求 你 使 用 MS 
DOS 磁盘 以 及 文件 格式 。 在 [Nutt, 2001] 中 的 实验 练习 11 和 12 描述 了 Linux 下 的 解决 方案 , [Nutt，1999] 
中 有 Windows 下 的 相同 实验 ( 见 这 些 练习 的 辅助 站 点 )。 


背景 


你 的 文件 管理 器 的 大 部 分 设计 是 简单 的 。 然 而 ,本 节 将 为 你 提供 一 些 有 关 如 何 组 织 你 的 文件 系统 的 有 
用 的 应 用 信息 。 

磁盘 布局 l 

我 们 需要 为 如 何 将 文件 存储 到 磁盘 上 提供 一 种 基本 的 格式 。 当 磁盘 被 格式 化 时 ,磁盘 就 做 好 了 准备 , 因 
而 某 个 固定 的 位 置 将 包含 一 个 特定 的 文件 管理 器 所 期 望 的 信息 。 在 一 个 操作 系统 上 对 磁盘 进行 格式 化 后 ， 
并 不 意味 着 该 磁盘 用 于 其 他 的 系统 时 也 需要 进行 格式 化 。 你 需要 为 你 的 磁盘 定义 自己 的 格式 。 

文件 描述 表 | 

文件 描述 表 是 一 种 简单 的 数据 结构 , 它 是 文件 管理 器 设计 者 在 设计 文件 管理 器 的 算法 时 确定 的 。 如 果 
你 有 可 用 的 Linux 源 代码 ,那么 可 以 查看 Linux 中 inode 的 确切 定义 ,这 只 要 在 名 为 /usr/src/linux/in- 
clude/linux/fs.h 的 文件 中 查看 一 下 struct inode 的 结构 即 可 (参阅 Beck et al. [1998, ch.6] 也 是 有 用 的 )。 

当 文 件 管理 器 加 载 外 部 文件 描述 表 到 主 存 时 , 它 会 从 磁盘 表示 中 拷贝 所 有 的 信息 ,再 增加 其 他 管理 打开 
文件 所 需要 的 信息 。 例 如 ,文件 描述 表 的 外 部 版 本 没有 指明 哪 一 个 用 户 和 进程 当前 已 打开 该 文件 ,或 者 文件 
读 写 指针 的 当前 位 置 是 什么 ,这 些 信息 只 对 一 个 打开 的 文件 有 意义 。 

在 13.3 节 的 例子 描述 了 UNIX 中 处 理 打开 文件 的 数据 结构 。 概 括 为 : 当 文 件 被 打开 时 ,文件 管理 器 在 
目录 中 查找 文件 以 获得 inode, 并 将 inode 拷贝 到 驻 留 主 存 的 inode 集合 中 ;然后 文件 管理 器 在 file 表 中 创建 
一 个 条 目 ,该 条 目 将 包含 有 打开 文件 后 进程 所 需要 的 新 的 动态 信息 (参见 /hsr/src/1inux/include/1inux/ 
fs.h 中 所 定义 的 struct file) ,因而 可 通过 file 表 条 目 访问 inode; 最 后 文件 管理 器 在 进程 的 文件 描述 表 中 创 
建 一 个 条 目 , 该 条 目 所 建立 的 “文件 标识 号 "会 被 open 命令 返回 ,并 且 该 条 目 有 指向 file 表 条 目的 指针 。 

目录 

当代 操作 系统 中 广泛 采用 了 层次 式 文件 系统 。 在 层次 文件 系统 中 ,每 个 目录 为 其 中 的 文件 以 及 其 他 目 
录 都 包含 有 一 个 目录 项 。 通 常情 形 中 目录 作为 普通 文件 来 实现 。 负 责 目 录 操 作 的 文件 管理 器 部 分 只 需 使 用 
正常 的 文件 打开 、 读 以 及 写 系 统 调用 。 通 常情 况 下 目录 被 视 作 一 个 文件 ,该 文件 的 内 部 结构 和 语义 通过 使 用 
它 的 过 程 来 定义 。 

目录 项 必须 包含 有 足够 的 信息 以 允许 文件 管理 器 来 匹配 一 个 字符 串 文 件 名 和 目录 项 名 字 , 如果 名 字 匹 
配 成 功 ,就 可 以 在 磁盘 上 找到 它 的 外 部 文件 描述 表 。 例 如 ,在 UNIX 系统 中 ,目录 项 必须 有 名 字 和 文件 的 in- 
ode 号 ,所 有 与 文件 相关 的 信息 必须 保存 在 inode 中 。 为 了 罗列 目录 中 的 文件 ,文件 管理 器 将 遍历 目录 内 容 ， 
从 每 个 目录 项 中 打印 输出 名 字 , 然 后 从 inode 中 获得 其 他 任何 信息 。DOS 目录 项 有 32 个 字 节 ,其 中 包含 有 
文件 名 及 其 扩展 名 文件 属性 、 创 建 时 间 及 日 期 文件 大 小 ,以 及 文件 第 一 个 块 的 位 置 [Nutt 1999]。 

Windows 的 FAT 文件 系统 使 用 了 32 字 节 的 目录 项 来 描述 一 个 文件 。 一 个 目录 项 包含 有 文件 名 字 以 及 
对 文件 数据 位 置 的 描述 ,该 目录 项 也 包含 有 以 字 节 表示 的 文件 大 小 (在 有 的 情形 中 ,文件 大 小 并 不 恰好 为 遍 
区 大 小 的 倍数 )。 由 于 每 个 目录 项 为 32 字 节 ,因而 一 个 FAT-12(512 字 节 ) 扇 区 就 包含 有 16 个 目录 项 。 根 目 
录 有 一 个 固定 的 目录 项 最 大 数目 (该 数目 被 存储 在 启动 扇 区 中 ) ,并 且 它 在 磁盘 的 一 个 固定 位 置 占 有 一 组 连 
续 的 遍 区 。 相 比 之 下 , 子 目 录 如 同文 件 一 样 被 存储 在 一 组 扇 区 中 一 一 逻辑 上 连续 扇 区 并 不 需要 是 在 磁盘 上 
物理 连续 的 ,因而 它们 必须 使 用 FAT 来 进行 访问 。 

目录 项 的 布局 如 图 13-26 所 示 ,所 有 的 多 字 节 整数 都 是 little- endian 次 序 ,意味 着 首先 存储 的 是 有 意义 
的 最 低位 字 节 。 





À HFE 349 








C i g 
文件 名 
扩展 名 
| 属性 的 位 域 
保留 的 
时 间 ( 编 码 形式 如 :小 时 数 * 2048 + 分钟 数 *32+ 秒 数 人 2) 间 
日 期 (编码 形式 如 :( 年 数 - 1980) x 512+ 月 数 *32+ 天数) 
FARES A 
文件 大 小 (以 字 节 计 ) 
, 图 13-26 目录 项 
注 : 目录 项 提供 了 描述 文件 的 足够 信息 :名 字 、 建 立 日 期 和 时 间 、 开 始 地 址 和 大 小 等 。 


文件 名 和 扩展 名 是 作为 大 写 的 ASCH 字符 来 存储 的 。 无 效 的 目录 项 是 以 0x00( 表 示 该 目录 项 以 前 没有 
被 使 用 ) 或 者 0xe5( 表 示 该 目录 项 以 前 使 用 过 ,但 已 经 被 释放 了 ) 开 头 的 名 字 。 开 始 艇 号 有 点 外 令 人 迷惑 , 虽 
然 它 指向 开始 的 得 ( 扇 区 ) 号 ,但 它 不 能 用 于 访问 引导 记录 FAT 拷贝 或 者 根 目 录 所 使 用 的 扇 区 。 如 果 开 始 的 
能 号 为 & ,那么 它 实 际 上 指向 的 逻辑 肩 区 号 为 31+A。 

属性 字 节 存储 属性 位 ,类 似 于 UNIX 中 的 属性 ,该 位 域 如 图 13-27 所 示 。 注 意 到 位 0 是 最 低 有 意义 的 位 ,一 个 
位 被 置 1 意味 着 文件 具有 该 属性 ,0 意味 着 它 没有 相应 的 属性 。 例 如 ,一 个 文件 的 属性 位 为 0x20 = = 00100000b, 则 
存档 属性 位 置 1 并 且 其 他 的 都 清 0; 一 个 隐藏 .只 读 属性 的 子 目 录 的 属性 位 应 为 00010011b= = 0x13, 
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位 掩 码 属性 
r 0 0x01 只 读 
1 0x02 隐藏 
2 ”0x04 系统 
3 0x08 卷 标 
4 0x10 ' 子 目录 
5 0x20 存档 
6 0x40 未 使 用 
7 0x80 未 使 用 











图 13-27 目录 项 属性 
注 : 目录 项 属性 位 图 描述 了 文件 类 型 。 


解决 问题 


、 解决 本 实验 所 需要 的 概念 并 不 复杂 ,但 为 了 实现 合适 的 解决 方案 ,必须 要 处 理 好 一些 细节 。 对 你 来 说 最 
重要 的 设计 挑战 可 能 是 建立 磁盘 布局 以 及 文件 描述 表格 式 。 下 面 给 你 一 个 磁盘 接口 ,要求 你 提供 一 个 API 
(扩展 的 问题 将 使 用 Windows FAT-12 格式 )。 

磁盘 接口 

本 实验 练习 中 所 使 用 的 虚拟 磁盘 是 通过 主 存 块 来 实现 的 , 它 包 含 了 一 个 语句 来 随机 地 产生 磁盘 读 和 写 
错误 。 你 可 以 调整 界限 来 满足 要 求 。 可 以 使 用 如 下 代码 来 实现 你 的 虚拟 磁盘 ， 

该 虚拟 磁盘 非常 简单 , 它 静态 地 分 配 100 个 块 (每 个 大 小 为 50 字 节 ) ,然后 对 它们 进行 读 、 写 ,同时 有 IO 
失败 的 可 能 性 。 使 用 这 段 代 码 来 实现 你 自己 的 虚拟 磁盘 , 随 着 需要 可 改变 块 的 大 小 。 如 果 你 喜欢 ,也 可 以 使 
用 不 同 的 RELIABILITY 值 来 进行 实验 。 


disk.h, 


#include <stdio.h> 


#define NUM_BLOCKS 100 
#define BLOCK_SIZE 50 
#define RELIABILITY 0.95 . 
#define PERIOD 2147483647.0 


#define ERROR Oo. 
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#define NO_ERROR 1 
#define NULL 0 


void initDisk(); 
int dRead(int addr, char *buf); 
int dWrite(int addr, char *buf); 


disk.c 


#include <stdio.h> 
#include “disk.h” 


static int threshold; 
static char *bList[NUM_BLOCKS]}; 


void initDisk() { 
int i; 


for(i=0; i<NUM_BLOCKS; i++) bList[i} = NULL; 
threshold = (int) (RELIABILITY*PERIOD) ; 
sleep(3); 

} , 

int dRead(int addr, char *buf) { 
int i; 
char *bufPtr; 


if(addr >= NUM_BLOCKS) return ERROR; 
if(rand() > threshold) return ERROR; 


if(bList[addr] i= NULL) { 
bufPtr = bList[addr]; 
for(i=0; i<BLOCK_SIZE; i++) buf[i] = *bufPtr++; 
} 
else 
for(i=0; i<BLOCK_SIZE; i++) buf[i] = 0; 


return NO ERROR; 
} 
int dWrite({int addr, char *buf) { 
int i; 
char *bufPtr; 
if(addr >= NUM_BLOCKS) return ERROR; 
if(rand() > threshold) return ERROR; 
if(bList[{addr] == NULL) 
bList[addr]) = (char *) malloc (BLOCK SIZE); 
bufPtr = bList[addr]; 
for(i=0; i<BLOCK_SIZE; i++) 
*bufPtr++ = buf[i]; 
return NO_ERROR; 
} 


解决 计划 

m 磁盘 模拟 代码 简单 地 初始 化 了 一 组 存储 块 , 但 并 没有 格式 化 磁盘 。 所 以 解决 方案 的 第 一 步 应 该 是 设 
计 你 的 低层 磁盘 格式 (当然 ,你 不 需要 提供 一 个 引导 区 ,但 可 能 需要 有 关于 磁盘 布局 的 信息 ,并 且 你 必 
将 需要 关于 根 目录 的 信息 )。 如 果 你 使 用 某 个 inode 的 版 本 ,那么 你 将 需要 决定 如 何 将 它 存放 在 你 的 
磁盘 上 。 

m 下 一 步 就 是 设计 目录 。 目 录 项 不 需要 复杂 一 一 它 应 该 只 有 允许 你 将 一 个 名 字 和 一 个 文件 描述 表 联 系 
在 一 起 的 足够 信息 就 可 以 了 。 在 设计 了 目录 项 以 后 ,你 就 可 以 实现 根 目录 。 你 可 能 希望 推迟 增加 子 
目录 功能 ,直到 你 使 更 多 的 程序 可 以 正确 运行 后 。 

m 这 时 ,你 必 将 发 现 创建 一 个 带 有 根 目录 和 几 个 文件 的 简单 文件 系统 的 工具 是 很 有 价值 的 ,你 也 会 发 现 
建立 一 个 转 储 出 虚拟 磁盘 内 容 的 工具 很 有 价值 ,因而 你 可 以 利用 它 进行 你 的 系统 的 其 他 部 分 的 设计 
和 调试 。 
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看 在 设计 了 目录 以 及 实现 了 你 的 根 目录 后 ,就 应 该 实现 你 的 fs 命令 的 第 一 个 版 本 一 一 它 只 工作 在 文 
件 系统 的 根 目 录 。 在 实现 了 子 目录 后 ,你 可 以 再 完整 实现 fls 命令 。 

a 现在 开始 准备 设计 并 实现 文件 描述 表 和 打开 文件 的 数据 结构 了 。 你 可 能 发 现在 使 用 FAT 风格 的 或 
者 使 用 inode 的 方法 中 ,只 使 用 指向 数据 块 的 直接 指针 是 最 容易 的 。 

a 现在 你 应 该 准备 实现 API 中 的 命令 了 。 如 果 你 首先 设计 和 实现 了 目录 命令 一 一 只 是 那些 读 取 目 录 而 
不 能 改变 目录 的 命令 ,随后 是 写 目 录 的 命令 (如 打开 一 个 新 文件 ) ,那么 就 可 以 较 容易 地 使 整个 系统 运 
行 了 。 

D 在 完成 了 这 个 阶段 后 ,你 就 可 以 实现 文件 操作 命令 了 ,它们 可 以 打开 或 关闭 以 及 读 或 写 一 个 文件 。 首 
先 实 现 的 命令 并 不 写 目录 项 或 文件 描述 表 ( 例 如 fRead() 命 令 )。 

m 在 使 这 部 分 代码 运行 后 ,你 就 可 以 实现 一 个 fwrite() 命 令 , 它 将 要 求 你 进行 存储 块 的 分 配 。 

a 最 后 一 步 是 实现 子 目 录 。 理 论 上 ,所 有 前 面 的 代码 都 应 该 带 有 子 目录 运行 ,但 实际 上 你 将 可 能 发 现在 
最 初 的 代码 中 有 一 些 错误 。 最 后 ,你 应 该 实现 fmkdir() 和 fcd() 命 令 。 

请 随 着 你 的 开发 进程 来 编写 你 的 驱动 程序 。 当 实现 fLs() 时 ,你 的 驱动 程序 只 需要 调用 fLs( ) 函 数 。 随 

着 你 增加 更 多 功能 ,就 需要 对 你 的 程序 进行 更 多 的 测试 。 


第 14 章 保护 和 安全 


所 有 的 文件 都 存储 在 计算 机 的 存储 设备 中 ， 存 储 设备 在 所 有 的 用 户 间 是 进行 空 分 共享 的 。 这 意味 着 ， 
一 个 用 户 所 拥有 的 文件 可 能 会 被 另 一 个 用 户 读 写 。 有 时 用 户 确实 是 打算 这 么 做 的 ， 让 存储 在 文件 中 的 信息 
在 用 户 之 间 共 享 ; 而 在 另 一 些 时 候 ， 用 户 可 能 想 要 独 享 信息 。 那 么 操作 系统 如 何 来 建立 一 个 环境 ， 使 得 用 
户 可 以 选择 保持 信息 私有 或 者 与 其 他 用 户 共 享 呢 ? 这 就 是 操作 系统 中 的 保护 和 安全 机 制 的 任务 。 当 计算 机 
被 连接 到 网 络 中 并 与 其 他 计算 机 连接 时 ， 保 持 信息 私有 会 更 加 困难 。 当 信息 通过 网 络 传递 时 以 及 当 信息 存 
储 在 存储 设备 上 时 ， 都 应 该 受到 保护 。 

在 操作 系统 管理 器 的 讨论 之 中 ,我 们 已 经 提 及 各 种 防止 未 授权 访问 以 保护 资源 的 方法 ,保护 和 安全 遍及 整 
个 操作 系统 。 之 前 ,你 已 经 看 到 操作 系统 的 所 有 部 分 (纵向 模块 ), 现 在 我 们 将 着 重 于 涉及 那些 功能 的 策略 和 工 
具 ( 横 向 函数 )。 这 一 章 的 主要 目标 是 区 分 外 部 和 内 部 的 安全 ,并 描述 实现 内 部 安全 策略 的 相关 保护 机 制 。 也 
讨论 了 内 部 保护 的 典型 模型 以 及 它 的 实现 问题 。 


14.1 问题 


保护 和 安全 在 现代 计算 机 系统 中 的 重要 性 日 益 增 加 。 随 着 越 来 越 多 的 个 人 生活 信息 被 编码 并 保存 到 计 
算 机 中 ， 我 们 的 身份 信息 潜在 地 可 能 被 其 他 的 用 户 所 访问 。 除 了 个 人 信息 外 ， 商 业 和 政府 部 门 的 核心 信息 
也 存储 在 计算 机 上 ， 这 些 信息 必须 可 以 被 拥有 它 和 依赖 它 的 用 户 使 用 ,但 是 不 能 被 未 授权 的 组 织 或 用 户 访 
间 。 除 了 保护 信息 外 ,保护 和 安全 的 另 一 个 方面 是 确保 属于 个 人 或 组 织 的 计算 机 资源 不 能 被 未 授权 的 个 人 
或 组 织 访问 。 

我 们 可 以 在 一 个 高 度 简化 的 模型 中 考虑 提供 保护 和 安全 的 问题 。 将 被 保护 的 信息 或 资源 看 成 是 “安全 
实体 "， 保 护 安全 实体 的 一 个 挑战 是 阻止 所 有 未 授权 的 访问 〈 见 图 14-1)。 计 算 机 的 物理 安全 (和 内 部 系统 
安全 ) 实体 应 该 仅 允 许 授权 的 “主体 ”( 如 进程 和 线程 ) 访问 。 未 授权 的 “主体 ”不 允许 访问 安全 实体 。 





图 14-1 仅 人 允许 授 权 访 问 
注 : 操作 系统 环境 包含 了 大 量 的 安全 实体 ， 大 量 的 主体 试图 去 访问 这 些 安全 实体 。 操 作 系统 保护 机 制 旨 在 对 主 
体 进 行 认 证 ， 确 保 它 们 被 授权 来 访问 任何 安全 实体 。 


安全 的 方面 一 般 来 说 分 成 两 部 分 : 为 试图 访问 安全 实体 的 主体 进行 认证 ， 以 及 确定 主体 是 否 被 授权 来 访问 
每 个 特定 的 安全 实体 。 认 证 (authentication) 机 制 指 的 是 确保 试图 访问 安全 实体 的 主体 实际 上 就 是 它 所 声称 的 主 
体 。 例 如 ， 如 果 主 体 声称 是 Sheriff of Nottingham， 则 系统 认证 机 制 负责 确保 实体 真正 是 Sheriff of Nottingham, 

授权 (authorization) 指 的 是 在 一 个 主体 被 认证 后 ， 确定 它 是 否 有 权 访 问安 全 实体 。 即 使 主体 实际 上 就 
是 Sheriff of Nottingham, 他 也 可 能 没有 权限 看 Robin Hood 的 个 人 日 程 表 。 系统 的 授权 工具 仅 允 许 主体 访问 
可 以 访问 的 安全 实体 。 
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在 现代 的 计算 机 系统 中 ， 计 算 机 常常 连接 到 网 络 中 ， 当 信息 在 网 络 上 传递 时 ， 它 常常 不 能 阻止 未 授权 
的 访问 。 保 护 和 安全 的 第 三 个 方面 是 提供 一 种 手 ae 
段 ， 确 保安 全 实体 在 网 络 上 传输 时 ， 安 全 实体 不 
能 被 拷贝 或 访问 。 在 当代 的 计算 机 系统 和 网 络 中 ， 
这 是 通过 使 用 密码 系统 或 对 信息 进行 编码 来 完成 
的 ， 这 使 得 第 三 方 在 获得 信息 的 拷贝 时 ， 无 法 将 
信息 解释 出 来 。 密 码 系统 逻辑 上 将 安全 实体 封装 
成 容器 。 这 为 安全 实体 在 网 络 上 传递 或 存储 在 持 
久 存 储 设备 如 文件 系统 中 ， 提 供 了 一 种 保护 手段 Sawn) AS 
( 见 图 14.2)。 因 此 ， 你 可 以 将 加 密 想像 成 授权 工 KARM 安全 环境 
具 ， 尽 管 加 密 技术 并 不 依赖 于 其 他 的 授权 工作 。 ag ey as 

这 卓 者 重 了 本 作 系统 保护 记 制 ， 它 当 行 了 关注: 无论 安全 实体 存储 在 存储 设 备 上 ， 还 是 在 网 络 上 传 
量 的 不 同安 全 策略 。 讨论 侧重 于 当前 技术 的 每 个 递 ， 加 密 技 术 都 可 以 用 来 保护 安全 实体 。 
方面 ， 如 认证 、 授 权 或 加 密 。 这 是 操作 系统 发 展 
的 一 个 领域 ， 所 以 我 们 集中 讨论 一 些 基本 的 原理 。 当 前 的 技术 、 主 题 和 问题 的 每 一 方面 都 可 以 概括 归属 到 
认证 、 授 权 或 加 密 中 。 随 着 这 个 领域 的 研究 持续 发 展 ， 在 下 个 十 年 中 ， 这 种 情况 可 能 会 发 生变 化 。 


1 私下 和 7 目标 


现代 计算 机 系统 支持 多 个 用 户 ， 通 过 共享 单个 计算 机 实现 ， 或 者 通过 使 用 网 络 访问 多 个 主 算 机 来 实 
现 。 组 织 机 构 (organization) 依赖 于 计算 机 存储 各 种 信息 ， 如 描述 它们 操作 的 状态 ， 以 及 帮助 管理 它们 的 
机 构 ， 还 有 它们 的 所 有 者 以 及 机 密 信息 等 。 计 算 机 本 身 也 表现 为 一 种 重要 的 组 织 机 构 资 源 ， 因 而 充分 使 用 
这 些 机 器 也 是 操作 组 织 机 构 的 相关 开销 。 组 织 机 构 必 须 保护 机 器 中 的 信息 和 计算 机 本 身 不 被 未 授权 用 户 所 
使 用 ， 如 同 需要 保护 所 有 其 他 的 资源 〈 如 建筑 物 、 设 备 以 及 财政 基金 等 ) 一 样 。 

软件 的 灵活 性 对 于 保护 资源 不 被 未 授权 访问 造成 了 一 定 的 困难 。 在 理论 的 计算 范围 内 ， 软 件 的 功能 仅 
受 限 于 软件 设计 者 的 智力 :只 要 问题 事实 上 是 可 以 解决 的 (理论 范围 )， 程序 员 就 可 以 用 软件 来 解决 他 们 
想 解 决 的 任何 问题 。 这 意味 着 有 可 能 编写 更 为 复杂 的 软件 ， 来 破坏 操作 系统 所 使 用 的 任何 保护 策略 。 即 使 
这 样 ， 操 作 系 统 设计 者 的 目标 就 是 建立 一 种 保护 策略 ， 它 不 可 能 被 所 有 将 来 生成 的 软件 绕 过 。 要 解决 这 个 
问题 ， 操 作 系统 设计 者 必须 得 到 相应 的 硬件 支持 ，CPU 模式 位 就 是 一 个 简单 的 例子 。 

计算 机 网 络 加 剧 了 这 个 问题 的 严重 性 ， 因 为 网 络 允 许 很 多 人 访问 计算 机 而 无 需 与 计算 机 在 同一 物理 位 
置 。 如 锁 住 机 房 这 样 的 物理 保护 机 制 ， 对 于 计算 机 的 网 络 访问 已 经 不 再 是 一 个 屏障 。 防 火 墙 等 同 于 物理 网 
络 保护 ， 它 们 在 网 络 接口 上 提供 了 一 种 屏障 ， 阻 止 经 由 网 络 访问 计算 机 。 

下 面 从 现代 系统 配置 的 范围 来 考虑 计算 机 及 其 信息 的 保护 问题 。 在 图 143 中 , 用户 A、B、C 以 及 DKE 
用 机 器 X 中 的 资源 ; FAP 通过 网 络 从 机 器 Y 来 访问 机 器 X; 用 户 A 和 B 有 私有 的 存储 信息 资源 ， 以 及 共享 
其 他 的 资源 和 信息 ; 机 器 X 也 有 一 些 资源 和 信息 可 以 被 任 一 用 户 ， 如 用 户 C 或 机 器 Y 上 的 远程 用 户 (如 D) 
所 访问 。 保 护 系统 必须 能 根据 组 织 机 构 的 特定 管理 策略 ， 强 制 所 需 的 资源 访问 方法 来 支持 这 种 环境 。 


14.1.2 策略 和 机 制 


在 本 书 中 我 们 使 用 了 策略 和 机 制 的 概念 。 在 保护 和 安全 中 ， 它 是 十 分 恰当 的 : 认证 、 授 权 和 加 密 工 具 
都 被 认为 是 保护 机 制 (protection mechanism) ， 或 称 用 来 控制 对 安全 实体 访问 的 工具 。 安 全 策略 (security 
policy) 是 确定 保护 机 制 如 何 被 使 用 的 规范 。 例 如 ， 保 护 机 制 能 够 选择 性 地 允许 某 个 主体 访问 安全 实体 。 
安全 策略 需要 指定 哪些 主体 可 以 访问 计算 机 的 安全 实体 ， 哪 些 主体 不 可 以 。 所 以 ， 理 想 的 保护 机 制 可 以 实 
现 大 量 不 同 的 安全 规范 。 在 计算 机 中 ， 操 作 系统 设计 者 提供 了 保护 机 制 ， 每 个 特定 计算 机 的 系统 管理 员 可 
以 指定 计算 机 使 用 的 安全 策略 。 

因为 保护 机 制 需要 作为 可 信 软 件 ， 它 们 几乎 一 直 是 作为 操作 系统 的 一 部 分 实现 的 ， 而 不 作为 用 户 空 
间 软 件 。 就 像 CPU 模式 位 可 用 来 区 分 可 信和 不 可 信和 软件 ， 自 陷 指 令 可 以 使 不 可 信和 软件 调用 可 信和 软件 ， 如 
果 底 层 的 硬件 提供 了 某 种 机 制 ， 通 常 的 保护 机 制 可 能 更 健壮 (或 更 容易 实现 )。 例 如 ， 在 存储 保护 中 , 动 





RPRED 355 











图 14-3 ”进程 访问 资源 : 
TE: 通常 的 计算 环境 允许 用 户 创建 进程 并 且 可 以 让 进程 使 用 系统 资源 。 在 支持 远程 访问 的 系统 中 ， 用 户 可 以 在 
远程 机 器 上 建立 进程 来 使 用 该 机 器 的 资源 。 操 作 系统 需要 阻止 对 安全 实体 〈 如 资源 ) 的 未 授权 访问 。 


态 硬件 重 定位 机 制 一 一 特别 是 限 址 寄存 器 ， 提 供 了 一 种 手段 ， 使 得 存储 管理 器 可 以 保证 用 户 空 间 程序 仅 可 
读 写 被 映射 到 它们 地 址 空间 的 主 存 。 

在 其 他 的 策略 与 机 制 分 离 的 操作 系统 中 ,常常 将 机 制作 为 系统 的 可 信 组 件 来 实现 ， 然 后 策略 可 以 在 不 
可 信 的 环境 中 定义 。 例 如 ， 分 页 机 制 可 以 在 可 信和 软件 和 硬件 的 结合 中 实现 ， 但 是 置换 策略 最 好 可 由 应 用 
(用 户 空间 ) 来 选择 ， 原 因 是 应 用 对 选择 最 好 的 置换 策略 有 更 多 的 知识 ， 所 以 策略 可 由 应 用 来 控制 。 为 了 
正确 性 ， 机 制 至 少 要 作为 可 信 机 制 来 实现 。 安 全 策略 也 并 不 是 一 直 在 不 可 信 域 中 指定 的 ， 这 是 因为 安全 策 
略 对 授权 功能 来 说 是 必 不 可 少 的 : 如 果 安全 策略 遭 到 了 破坏 ， 系 统 的 安全 目标 也 会 被 破坏 。 在 现代 系统 
中 ， 安 全 策略 有 时 在 用 户 空间 中 指定 ， 有 时 是 在 核心 空间 中 绑 定 的 。 

在 设计 一 个 通用 的 保护 机 制 的 过 程 中 ,有 许多 复杂 的 问题 :给 定 一 个 指定 安全 策略 的 方法 ,结果 空间 如 何 
理解 呢 ? 系统 管理 员 如 何 确保 特定 的 安全 策略 规范 (指令 集 ) 实 际 上 提供 了 想 要 的 安全 类 型 ? 系统 可 以 使 用 什 
么 保护 机 制 来 支持 一 个 给 定 的 策略 空间 呢 ? 给 定 一 个 特定 的 保护 机 制 , 它 可 以 支持 的 策略 空间 是 什么 呢 ? 


14.1.3 保护 和 安全 的 上 下 文 


计算 机 的 安全 比 操作 系统 的 大 部 分 设计 问题 更 难 表示 。 这 是 因为 安全 包括 了 管理 策略 、 道 德 因素 和 物 
理 安 全 ， 这 些 都 是 额外 的 操作 系统 设计 的 客观 因素 。 因 为 计算 机 安全 威胁 的 特性 ， 系 统 保护 的 方式 甚至 比 
计算 机 系统 的 任何 其 他 软件 和 硬件 更 复杂 。 
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保护 机 制 可 以 依赖 于 计算 机 的 物理 隔离 或 逻辑 隔离 ， 来 阻止 远程 用 户 通过 通信 和 网络 来 访问 计算 机 。 本 
书 并 不 介绍 物理 安全 问题 ， 只 是 假定 通过 直接 或 间接 连接 到 系统 的 设备 交互 ， 未 授权 的 用 户 能 够 建立 对 计 
算 机 系统 的 逻辑 访问 。 注 意 ， 在 一 个 未 受 控制 的 外 部 环境 中 解决 这 个 问题 是 很 难 的 。 在 这 些 情况 下 ， 安 全 
违反 者 不 会 遵守 任何 特定 的 “游戏 规则 ”。 

在 现代 计算 机 系统 中 ， 导 致 保 护 和 安全 出 现 的 实际 情形 是 什么 呢 ? 计算 机 系统 设计 者 一 直 关 心 人 侵 
Bo MIRA (intruder) 通过 欺骗 认证 机 制 ， 或 在 认证 策略 中 找到 漏洞 来 获得 对 计算 机 的 访问 权 。 入 侵 者 可 
能 是 一 个 人 或 软件 。 下 面 是 一 些 著名 的 攻击 类 型 : 

@ 伪装 (masquerading): 在 这 种 攻击 类 型 中 ， 和 人 侵 者 通过 假装 成 一 个 不 同 的 用 户 来 欺骗 认证 机 制 。 通 

常情 况 下 ， 入 侵 者 接近 认证 机 制 并 提供 一 个 登录 身份 。 认 证 需要 额外 的 信息 来 认证 身份 ， 例 如 密 
码 。 入 侵 者 提供 额外 的 信息 并 获得 对 机 器 的 访问 ,假冒 是 一 个 认证 的 用 户 。 

田 猜 登 录 名 和 密码 : 人 侵 者 通过 猜 登 录 名 和 密码 来 欺骗 认证 机 制 。 假 定 和 人 侵 者 知道 管理 员 分 配 登录 名 
的 算法 一 一 可 能 是 用 户 的 姓 ， 则 他 可 容易 地 猜测 登录 名 。 对 一 个 典型 的 操作 系统 ， 仅 有 的 问题 就 是 
猜测 密码 。 没 有 经 验 的 用 户 会 选择 简单 的 密码 。 如 果 人 侵 者 知道 他 们 试图 人 侵 的 对 象 ， 则 可 以 很 容 
易 地 猜测 出 密码 : 可 能 是 一 个 人 的 电话 号 码 、 狗 的 名 字 、 生 日 或 其 他 相似 的 信息 。 如 果 认 证 机 制 使 
用 简单 的 密码 (如 数字 和 字符 组 成 的 5 个 字符 的 串 ) ， 则 和 人 侵 者 会 编写 一 个 程序 来 提供 每 个 可 能 的 
密码 来 反复 登录 ， 直 到 有 一 个 成 功 为 止 。 . 

加 偷窃 登录 名 和 密码 : 很 多 有 经 验 的 人 侵 者 会 在 一 个 不 安全 的 位 置 搜 索 密码 。 注 意 ,， “About Me” 和 
个 人 网 页 是 丰富 的 资源 ， 入 侵 者 可 以 从 那儿 搜集 到 有 关 用 户 的 信息 。 另 外 ， 如 果 用 户 将 密码 作为 一 
个 可 读 的 文件 保存 在 计算 机 上 ， 如 果 人 侵 者 找到 了 文件 并 拷贝 它 ， 她 或 他 就 可 以 访问 计算 机 了 。 在 
梨 些 情况 下 ， 用 户 的 密码 会 以 未 加 密 的 形式 出 现在 网 络 上 ， 人 和 人 侵 者 会 在 网 络 上 运行 一 个 后 台 程序 ， 
来 寻找 通过 网 络 传递 的 用 户 名 和 密码 。 当 后 台 程 序 发 现 登 录 名 和 密码 时 ， 它 会 将 其 保存 并 供 入 侵 者 
在 随后 的 某 个 时 候 使 用 。 

Star, 因为 计算 机 系统 是 连接 到 网 络 上 的 ， 入 侵 者 可 以 使 用 另 一 种 攻击 方法 。 假 定 计 算 机 有 一 
个 邮件 发 送 端 口 一 一 邮件 程序 (文件 传输 程序 ) 使 用 的 逻辑 入 口 。 典 型 的 安全 漏洞 是 操作 系统 安装 
了 可 供 一 组 邮件 程序 使 用 的 默认 密码 。 如 果 系 统管 理 员 不 改变 密码 ， 和 人 侵 者 可 以 伪装 成 另 一 个 邮件 
程序 来 访问 系统 。 除 了 邮件 外 ,经 典 的 可 选择 的 入 口 是 文 件 传 输入 口 和 web MADO, Interet 
蠕虫 入 侵 者 (软件 而 不 是 人 ) 利用 了 可 选择 的 人 口 来 破坏 认证 机 制 。 

软件 人 侵 者 可 能 比 人 类 人 侵 者 更 危险 ， 因 为 它 会 悄 无 声息 地 进入 计算 机 并 开始 破坏 安全 策略 。 下 面 是 
一 些 著 名 的 软件 攻击 方法 : 

E 限制 和 指定 权限 (confinement and allocating rights): 限制 背后 的 思想 是 两 个 进程 间 的 任何 交互 导致 

了 信息 隐 式 地 被 通信 双方 所 了 解 。 这 和 人 类 的 谈话 相似 : 如 果 你 和 一 个 完全 的 陌生 人 谈话 ， 与 从 他 
传达 给 你 的 实际 信息 相 比 ， 可 以 从 推断 中 更 多 地 了 解 那个 人 。 在 软件 中 ， 限 制 的 目标 是 阻止 任何 人 
侵 进 程 从 与 有 安全 实体 的 进程 交互 中 了 解 或 推断 出 任何 未 授权 的 信息 。 限 制 被 违反 的 一 个 简单 例子 
E: 允许 人 侵 者 查询 安全 实体 。 假 定 入侵 者 想 要 知道 一 个 人 是 否 有 银行 帐户 ， 余 额 查询 程序 会 产生 
一 个 回答 如 “你 不 能 访问 这 个 帐户 ”， 这 意味 着 帐户 存在 的 信息 并 没有 被 限制 。 通 常情 况 下 ， 这 要 
求 主体 保证 是 无 记忆 的 一 一 即 限制 它 保留 信息 或 者 泄漏 信息 给 其 他 主体 的 能 力 。 限 制 问题 只 能 通过 
考虑 程序 的 行为 来 得 以 完全 解决 。 如 果 不 可 信 的 主体 不 能 表现 为 无 记忆 性 ， 限 制 问题 就 无 法 解决 。 

m 特洛伊 木马 〈Trojan horse): 特洛伊 木马 问题 指 的 是 人 侵 者 提供 一 些 实体 给 系统 ， 系 统 接受 了 这 些 

实体 并 将 它 结合 到 可 信和 软件 中 。 病 毒 是 特洛伊 木马 的 主要 例子 病毒 由 人 到 免费 软件 、 设 备 驱 动 程 
序 更 新 中 ， 或 不 用 适当 认证 就 可 以 安装 的 其 他 软件 单元 中 。 一 旦 特洛伊 木马 被 安装 ， 软 件 人 侵 者 潜 
在 地 获得 了 计算 机 可 信 域 的 人 口 。 当 它 被 激活 时 ， 它 会 像 认 证 过 的 进程 一 样 运行 。 

m 拒绝 服务 (Denial of Service): 在 最 近 几 年 ， 拒 绝 服 务 攻击 在 Intenet 上 变 得 相当 流行 。 拒 绝 服务 攻 
击 的 目的 是 : 不 是 访问 一 个 安全 实体 ， 而 是 为 系统 提供 很 多 的 外 部 工作 来 使 得 它 不 能 执行 实际 工 
作 。 假 定 服务 器 接收 来 自 客 户 计算 机 的 请 求 来 为 客户 提供 服务 。 拒 绝 服务 攻击 就 是 让 少数 的 客户 机 
器 执行 软件 ， 并 迅速 地 将 大 量 正常 的 请 求 传递 给 服务 器 。 服 务 器 在 接 到 众多 这 样 的 请 求 时 会 被 渡 
没 ， 并 且 不 能 对 正常 的 服务 请 求 作 出 反映 。 
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保护 机 制 和 安全 策略 意 在 解决 上 述 类 型 的 攻击 以 及 人 侵 者 可 能 发 明 的 其 他 攻击 。 这 对 操作 系统 设计 者 
提出 了 挑战 ， 需 要 对 先进 的 攻击 采取 适当 的 机 制 和 策略 。 


14.1.4 保护 机 制 的 开销 


值得 指出 的 是 ， 保 护 机 制 所 产生 的 开销 能 严重 影响 系统 性 能 。 基 本 的 保护 模型 要 求 在 每 次 访问 之 前 ， 
都 要 通过 一 个 监控 程序 进行 检查 ， 这 可 能 引起 潜在 的 性 能 开销 。 操 作 系统 设计 者 必须 决定 保护 机 制 在 性 能 
开销 方面 的 表现 是 否 合 理 。 在 信息 必须 保证 安全 的 环境 中 〈 例 如 ， 有 关公 司 的 财政 形势 或 有 关 国防 的 信 
息 ) ， 性 能 开销 可 能 不 是 问题 ， 其 中 的 信息 必须 被 保护 ， 否 则 计算 机 系统 就 没有 意义 了 。 然 而 .操作 系统 
设计 者 的 挑战 是 尽 可 能 设计 最 有 效 的 机 制 。 


14.2， 认 证 


认证 是 确定 主体 是 否 就 是 他 所 声称 的 身份 的 过 程 。 在 计算 机 保护 中 ， 两 种 不 同 的 技术 用 来 内 部 和 外 部 
认证 。 外 部 认证 确定 用 户 是 否 为 它 所 声称 的 身份 。 例 如 ， 如 果 某 个 人 登录 到 特定 帐户 名 的 系统 ， 基 本 的 外 
部 认证 机 制 将 检查 确保 登录 进 的 这 个 人 就 是 使 用 这 个 帐户 的 用 户 。 

内 部 认证 确保 执行 线程 GEE) 并 不 被 其 他 用 户 所 拥有 。 一 般 来 说 ， 线 程 必 须要 被 认证 来 与 一 个 给 定 
的 进程 相关 联 。 进 程 也 必须 要 被 认证 来 与 一 个 特定 的 用 户 相关 联 。 如 果 没 有 内 部 认证 ， 用 户 可 能 会 建立 一 
个 属于 其 他 用 户 的 线程 。 那 么 ， 通 过 使 一 个 线程 以 另 一 个 用 户 的 身份 运行 ， 即 使 是 最 有 效 的 外 部 认证 机 制 
也 可 以 很 容易 地 被 绕 过 。 


14.2.1 外 部 用 户 认证 


老板 说 :“ 我 的 键盘 坏 了 ， 在 敲 入 密码 时 它 仅 显示 星 号 。” 

Dogbert:“ 试 着 将 你 的 密码 改 为 PES.” 

老板 说 :“ 我 希望 我 能 记得 它 。 

——-Dilbert, Boulder camera, September 6, 2001 

用 户 与 计算 机 系统 的 最 初 交互 就 是 登录 操作 系统 。 在 登录 对 话 框 中 ， 操 作 系统 试图 去 验证 用 户 就 是 他 
们 所 声称 的 身份 。 这 种 保护 称 为 外 部 或 用 户 认 证 。 如 果 一 个 系统 能 够 确保 用 户 认 证 的 准确 性 ， 关 于 保护 的 
许多 问题 就 已 经 解决 了 。 然 而 ， 在 这 种 假定 之 下 的 商业 系统 并 没有 设计 出 ， 因 为 大 多 数 的 用 户 认证 机 制 可 
能 会 失效 。 如 果 可 能 设计 一 个 确实 可 靠 的 用 户 认证 机 制 ， 则 用 户 采取 的 任何 行动 都 完全 为 用 户 的 责任 ， 没 
有 其 他 的 用 户 可 以 冒充 登录 。 一 般 来 说 ， 确 定 的 认证 机 制 并 不 可 能 出 现 。 

我 们 来 考虑 一 下 在 UNIX 工作 站 网 络 中 ， 建 立 一 个 可 靠 的 外 部 认证 机 制 的 复杂 性 。 起 初 ， 分 时 机 器 物 
理 上 位 于 安全 的 计算 机 房间 中 ， 用 户 通过 通信 线路 登录 机 器 ,但 是 与 机 器 或 操作 控制 台 没 有 物理 的 接触 。 
当 个 人 计算 机 和 工作 站 开始 采用 UNIX 时 ， 这 种 情形 就 改变 了 。 这 些 类 型 的 计算 机 物理 上 就 位 于 用 户 的 工 
作 区 。 操 作 员 的 控制 台 是 物理 显示 器 上 的 一 个 窗口 ， 而 不 是 安全 区 的 一 个 单独 终端 。 这 意味 着 ， 早期 分 时 
系统 的 物理 安全 在 当代 的 UNIX 工作 站 环境 中 并 不 存在 。 

工作 站 网 络 一 般 来 说 由 一 个 中 心 组 织 所 管理 ， 工 作 站 的 所 有 者 是 一 个 普通 用 户 。 所 有 者 使 用 逻辑 操作 
员 的 控制 台 来 登录 人 计算 机 ， 他 没有 特别 的 管理 权限 。 远 程 管 理 员 使 用 根 用户 登 录 ， 系 统 就 可 以 被 远程 管 
理 ， 并 且 不 允许 本 地 所 有 者 改变 任何 系统 文件 。 

然而 ， 假 定 用 户 关闭 机 器 的 电源 并 再 次 开机 。 在 这 种 情况 下 ，UNIX 工作 站 可 以 在 单 用 户 模式 下 启 
动 ， 通 过 操作 控制 台 可 以 以 根 用 户 登录 。 因 此 ,任何 有 根 权 限 的 人 可 以 关闭 机 器 并 进入 单 用 户 模式 ， 当 想 
要 时 就 改变 许可 权限 ， 并 在 多 用 户 模式 下 启动 操作 系统 。 这 个 缺点 很 快 就 被 意识 到 ， 并 采取 让 机 器 只 能 在 
多 用 户 模式 下 启动 进行 了 改进 。 然 而 ， 这 个 例子 解释 了 一 个 人 不 能 依赖 于 简单 的 假定 如 : “操作 系统 证 明 
是 安全 的 ， 所 以 系统 是 安全 的 。” 

密码 认证 

用 户 认证 机 制 的 一 一 种 最 广泛 使 用 的 方法 是 用 户 提供 身份 和 密码 的 组 全 。 计 算 机 对 这 两 方面 的 信息 进行 
检查 ， 并 确定 访问 计算 机 的 这 个 用 户 是 否 可 和信。 在 这 种 方法 下 ， 入 侵 者 绕 过 认证 机 制 并 获得 对 计算 机 的 访 
问 的 困难 有 多 大 呢 ? 历史 上 ， 这 是 白 间谍 对 黑 间 谍 的 问题 : 每 次 计算 机 系统 在 认证 机 制 上 作 了 改进 ， 入 侵 
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Oe ee Te MEL 这 导致 了 认证 机制 的 再 次 改进 。 为 了 思考 认证 的 工作 原理 ， 考虑 





程序 ) 。 信 侵 者 冒充 成 可 信用 户 来 访问 计算 机 

在 最 简单 的 情况 下 ， 可 信 机 制 保持 了 一 个 文件 〈 称 为 密码 文件 )， 它 列 出 了 所 有 的 可 信用 户 身份 和 相 
应 的 密码 ， 且 系统 没有 对 登录 名 和 密码 的 形式 提供 特定 的 建议 和 约束 。 假 定 人 侵 者 获得 了 雇员 的 公司 目 
录 ， 可 能 是 在 垃圾 回收 站 中 发 现 的 ， 也 可 能 是 在 公司 的 网 页 上 发 现 的 (大 多 数 的 公司 并 不 在 网 上 发 布 这 类 
信息 ， 因 为 职业 介绍 公司 会 很 容易 地 确定 公司 雇员 的 名 字 ， 然 后 将 他 们 招聘 到 一 个 与 它 竞争 的 公司 去 工 
作 )。 假 定 入 侵 者 知道 了 雇员 名 ， 则 可 以 很 容易 地 猜测 出 登录 密码 。 例 如 ， 如 果 有 一 个 名 为 George 
W.Shrub 的 雇员 ， 好 的 候选 登录 名 包括 了 george、georges、georgesh、shrub、gshrub、gwshrub、gws 等 。 想 
像 一 下 ， 在 大 学 的 教育 计算 机 上 猜测 你 的 朋友 的 登录 名 是 多 人 么 容易 。 人 侵 者 也 必须 猜测 与 登录 关联 的 密 
码 。 假 定 认证 机 制 立 即 对 一 个 不 存在 的 用 户 名 显示 如 下 信息 (在 提供 密码 之 前 ): 


login: gshrub 
There is no such user 


login: 


则 入 侵 者 可 以 不 用 关心 密码 就 对 可 信用 户 尝试 使 用 不 同 的 登录 名 。 假 定 对 认证 机 制 稍微 进行 修改 ， 使 得 需 
要 用 户 同时 提供 登录 名 和 密码 : 


login: gshrub 

password: ***** (The user types “texas”) 

Authentication failed 

login: 

现在 人 侵 者 便 不 知道 是 登录 名 还 是 密码 是 不 可 接收 的 ， 可 能 登录 名 是 可 信 的 ， 但 提供 的 密码 不 匹 
配 一 一 也 就 是 说 (gshrub, texas) 在 密码 文件 中 并 不 是 可 接收 对 。 可 信 的 对 可 能 是 (gshrub, dallas) 或 
(gwshrub, texas) ， 但 是 人 侵 者 得 不 到 足够 的 信息 来 确定 哪 一 个 地 方 出 错 了 。 

和 人 侵 者 如 何 能 欺骗 用 户 认证 机 制 呢 ? 有 两 个 著名 的 攻击 手段 : 人 侵 者 简单 地 试图 猜测 登录 名 和 密码 ， 
这 是 一 种 很 原始 的 方法 。 第 二 种 方法 就 是 通过 发 现 来 获得 密码 ， 例 如 ， 在 网 络 上 进行 窃听 ， 寻 找 包含 登录 
名 和 密码 的 记录 。 今 天 ， 窃 听 可 能 比 第 一 种 方法 更 常用 ， 但 是 操作 系统 必须 要 试图 应 付 两 种 类 型 的 攻击 。 

机 器 没有 与 人 侵 者 隔离 这 个 事实 给 认证 提供 了 主要 的 障碍 ， 现 在 ， 许 多 计算 机 可 以 通过 使 用 拨号 线 和 
Internet 进行 访问 。 通 过 冒充 连接 到 目标 计算 机 的 人 ， 另 一 台 计 算 机 可 能 是 实际 的 人 侵 者 : 人 侵 者 可 以 写 
一 个 程序 来 连接 到 目标 计算 机 ， 然 后 系统 地 尝试 < 登录 名 ， 密 码 > 对 。 人 侵 者 也 可 以 使 用 各 种 外 部 信息 来 
猜测 登录 名 ， 例 如 ， 在 公司 工作 的 雇员 名 字 的 信息 。 

猜测 密码 的 难度 有 多 大 呢 ? 如 果 入 侵 者 对 所 有 密码 (长 度 为 1、 然后 2、 然 后 3 等 ) 进行 枚 举 的 话 ， 
它 可 能 需要 一 段 时 间 。 贝 尔 实验 室 的 研究 人 员 对 这 个 问题 很 感 兴趣 ， 给 了 一 些 有 关 雇 员 的 额外 信息 。Mor- 
ris 和 Thompson [1979] 决定 对 贝尔 实验 室内 UNIX 系统 使 用 的 密码 进行 研究 。 首 先 ， 他 们 分 析 了 一 组 长 
时 间 内 使 用 的 3289 个 密码 集 ， 他 们 发 现 的 密码 特征 如 下 : 

E 单个 的 字符 为 15 个 

里 两 个 字符 的 密码 有 72 个 

m 三 个 字符 的 字符 串 有 464 个 

E4 个 字符 数字 的 字符 串 为 477 个 

n5 个 字符 的 字符 串 〈 它 们 要 人 么 全 为 大 写 ， 要 人 么 全 为 小 写 ) 有 706 个 

86 个 都 为 小 写字 符 的 字符 串 有 605 个 

3 个 或 3 个 以 下 的 字符 串 (17% ) 可 以 很 容易 地 使 用 原始 枚 举 技术 猜 出 来 。 对 于 列表 中 的 所 有 原则 ， 
搜索 所 花费 的 时 间 量 也 不 是 很 大 。 这 样 做 会 使 得 人 侵 者 可 以 将 系统 中 的 71% 的 密码 猜测 出 来 。 下 一 步 ， 
Morris 和 Thompson 查询 出 现在 联机 字典 和 其 他 列表 中 的 密码 ， 他 们 发 现 了 另外 的 492 个 密码 。 总 的 来 说 ， 
使 用 上 面 这 两 种 方法 ，86% 的 密码 可 以 猜测 出 来 。 即 使 这 是 几 年 前 做 的 研究 ， 这 个 结果 也 强调 了 人 侵 者 使 
用 第 一 种 方法 (加 上 一 些 简单 的 启发 式 搜 索 ) 猜测 密码 的 容易 性 。 给 定 一 个 雇员 的 名 单 和 潜在 的 密码 列 
表 ， 入 侵 者 计算 机 可 以 在 几 分 钟 之 内 进入 内 部 计算 机 。 
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系统 怎样 应 付 第 一 种 原始 攻击 呢 ? 首先 ， 认 证 机 制 应 该 在 大 写 和 小 写字 符 间 进 行 区 分 (许多 简单 的 认 
证 机 制 并 不 这 样 做 ， 因 为 它 会 使 用 户 厌烦 )。 从 Morris 和 Thompson 的 分 析 中 可 得 知 ， 认 证 机 制 应 该 鼓励 
(或 强迫 ) 用 户 选 择 很 难 猜 的 密码 。 这 个 机 制 可 以 在 它 自己 的 联机 字典 中 查询 每 个 潜在 的 密码 。 如 果 提 交 
作为 密码 的 字 被 找到 了 ， 这 个 机 制 会 拒绝 它 (需要 用 户 去 选择 一 个 更 复杂 的 密码 )。 认 证 机 制 使 用 的 其 他 
策略 是 密码 必须 要 足够 长 。 例 如 ， 必 须要 超过 7 个 字符 ， 有 些 必须 是 标点 字符 ， 有 些 必须 是 数字 ， 有 些 必 
须 是 大 写 ， 有 些 必须 是 小 写 。 

第 二 种 机 制 可 以 使 得 第 一 种 攻击 方法 更 难于 使 用 ， 也 就 是 让 目标 计算 机 的 认证 机 制 试图 对 第 一 种 攻击 
进行 检测 。 一 种 简单 的 技术 就 是 对 连续 登录 失败 次 数 的 统计 。 如 果 这 个 计数 超过 了 一 个 国 值 ， 认 证 机 制 就 
可 以 断 开 与 远程 用 户 的 连接 一 段 时 间 〈 如 5 分钟 )。 例 如 ， 如 果 拨 号 连接 检测 到 $ 次 连续 的 失败 登录 ， 目 
标 计 算 机 的 调制 解 调 器 会 断 开 电话 的 拨 导 。 (相似 地 ， 在 Internet 上 连续 失败 的 telnet 连接 会 终止 telnet 会 
话 并 且 不 允许 它 在 5 分 钟 之 内 再 次 登录 。) 当然 ， 人 侵 者 计算 机 可 以 再 次 连接 并 以 较 低 的 枚 举 速 率 再 次 试 
图 登录 。 注 意 ， 这 会 增加 入 侵 者 进入 特定 计算 机 的 时 间 ， 但 是 如 果 和 人 侵 者 有 100 个 目标 ， 则 入 侵 者 在 被 一 
个 特定 的 目标 断 开 时 ， 它 可 以 简单 地 尝试 登录 另 一 个 计算 机 。 





示例 : Windows NT/2000/XP 用 户 认证 
Windows NT/2000/XP 包含 了 一 个 全 面 的 用 户 认 证 机 制 ， 它 是 非常 简单 和 严格 的 认证 [Solomon and 
Russinovich, 2000]. RUE (我 们 常常 看 到 的 ) 指向 标尺 的 非常 简单 的 一 端 。 登 录 可 以 在 控制 台 或 通过 
网 络 进行 。 我 们 在 这 个 例子 中 考虑 控制 台 登 录 过 程 。 
保护 机 制 的 基本 组 件 由 本 地 安全 授权 子 系统 (Lsass) 、 管 理 用 户 认 证 的 用 户 空 间 程序 和 安全 访问 监控 
程序 (SRM) 组 成 。SRM 是 操作 系统 中 为 核心 对 象 检查 访问 授权 和 管理 这 些 对 象 的 访问 权限 的 部 分 。 如 
图 14-4 所 示 ，Lsass 和 SRM 由 安全 帐号 管理 (SAM) 服务 器 、 活 动 目录 服务 器 和 Winlogon 进程 所 支持 。 





本 地 安全 认证 子 系统 (Lsass) 








用 户 空间 
系统 空间 





安全 访问 监控 程序 (SRM) 


* 本 地 安全 认证 (LSA) 
** ”安全 帐号 管理 器 (SAM) 
图 14-4 Windows 2000 用 户 认证 


注 : Windows NT/2000/XP 用 户 认证 使 用 了 操作 系统 保护 机 制 (安全 访问 监控 程序 ) 和 各 种 补充 用 户 空间 机 制 
《作为 Windows 子 系统 实现 的 )。 
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Winlogon 进程 根据 它 内 部 的 状态 来 负责 显示 不 同 的 窗口 ; 在 特定 情况 下 ， 当 它 读 取 了 组 合 键 “Ctr+ 
Alt+ Del” 时 ， 它 会 显示 登录 窗口 ， 然 后 转换 到 接受 用 户 登录 和 密码 的 状态 。 登 录 窗 口 仅 可 由 Winlogon if 
H, 意味 着 当 登 录 窗口 显示 时 ,没有 其 他 的 进程 可 以 与 桌面 相关 联 。 这 样 做 的 目的 是 阻止 特洛伊 木马 程序 
处 理 认 证 。 一 旦 Winlogon 获得 了 用 户 登录 名 和 密码 信息 ， 它 就 通过 一 组 认证 算法 一 一 默认 是 微软 本 地 认 
证 ，MSV1 _0 或 者 Kerberos 认证 机 制 (将 在 这 节 的 后 面部 分 讨论 ) 来 对 用 户 进行 认证 。MSV1 _0 通过 为 
相应 的 策略 搜索 SAM 数据 库 来 确定 用 户 的 真实 性 。 用 户 的 SAM 记录 GOIRTE) 指定 了 密码 、 用 户 所 属 
的 组 以 及 系统 管理 员 为 用 户 所 设置 的 访问 限制 。Lsass 也 可 以 使 用 自己 的 策略 来 作为 MSV1 _ 0 登录 过 程 的 
一 部 分 。 基 于 Kerberos 的 登录 过 程 与 MSV1 _0 执行 了 相同 的 逻辑 步骤 。 然 而 ， 它 是 从 活动 目录 而 不 是 
SAM 数据 库 那儿 获得 安全 策略 信息 。 

在 用 户 认证 期 间 ，Lsass 建立 了 用 户 访问 令 牌 (token)。 访 问 令 牌 由 内 核 级 代码 (SRM) 来 建立 和 管 
理 。 在 认证 过 程 成 功 之 后 ，Lsass 会 请 求 为 用 户 建立 令 牌 。 这 个 令 牌 就 像 键 值 ， 它 可 被 用 户 创建 的 任何 线 
程 和 进程 所 使 用 。 当 一 个 新 的 进程 或 线程 被 创建 时 ， 它 继承 了 访问 令 牌 。 

E 





窃取 密码 

Internet 可 以 让 人 们 轻易 并 迅速 地 访问 到 大 量 不 同 的 远程 计算 机 。 当 一 个 远程 计算 机 中 有 有 价值 的 内 
容 或 资源 时 ， 在 一 个 人 可 以 访问 远程 计算 机 之 前 ， 需 要 用 户 满足 用 户 认证 机 制 。 这 暗示 着 在 会 话 开始 时 ， 
远程 计算 机 会 在 本 地 计算 机 上 启动 一 个 标准 认证 对 话 框 。 例 如 ， 在 通常 的 web 浏览 器 /服务 器 对 话 框 中 ， 
服务 器 会 请 求 使 用 web 浏览 器 的 人 使 用 认证 信息 : 登录 名 和 密码 。 如 果 不 出 意外 的 话 ，web 浏览 器 会 简单 
地 传输 登录 和 密码 信息 给 web 服务 器 (可 能 是 使 用 流行 的 http 协议 )。 这 意味 着 登录 名 和 密码 信息 会 放置 
在 Internet 上 ， 人 入 侵 者 就 可 以 看 见 它们 。 

人 侵 者 编写 嗅 探 /窃听 程序 (sniffer)， 它 会 被 动 地 检查 在 Internet 上 通过 的 信息 。 嗅 探 程序 可 以 寻找 任 
何 种 类 的 信息 ， 包 括 登 录 名 和 密码 。 嗅 探 程序 在 磁 上 登录 名 和 密码 时 ， 是 如 何 识别 它们 的 呢 ? 人 侵 者 会 有 
一 些 简单 的 经 验 ， 这 是 在 他 作为 普通 的 web 浏览 器 用 户 请 求 服务 时 知道 的 。 嗅 探 程序 会 检查 浏览 器 和 客户 
之 间 的 信息 流 ， 来 确定 登录 和 密码 间 的 格式 。 例 如 ，web 浏览 器 发 送 的 信息 实际 包含 下 面 的 文本 字符 串 ， 


+++; login: gshrub; password: 1600Penn-Ave. NW; -:- 


在 人 侵 者 确定 信息 出 现 的 格式 后 ， 嗅 探 程序 就 开始 搜索 (登录 名 ， 密 码 ) 对 。 

认证 机 制 如 何 阻 止 别 人 来 嗅 探 呢 ? Haller 发 表 了 一 篇 论文 描述 了 S/KEY 一 次 性 密码 系统 ， 它 提供 了 一 
种 有 效 的 手段 来 阻止 密码 被 其 他 嗅 探 程 序 获 得 [Haller，1994]。 一 -次 性 密码 方法 的 目标 是 阻止 可 重用 的 密 
码 出 现在 网 络 上 ， 一 次 性 密码 的 同步 集会 在 用 户 机 器 和 认证 机 制 间 进 行 交换 。 也 就 是 说 ， 当 一 个 会 话 开始 
时 ,目标 计算 机 会 发 送 一 个 信号 (challenge) 给 请 求 登录 的 用 户 ， 以 及 在 认证 序列 阶段 中 的 第 i 个 一 次 性 
密码 。 窃 听 程序 可 以 拷贝 信号 和 一 次 性 密码 ， 然 而 ， 一 旦 它 被 提供 给 目标 计算 机 ， 目 标 计 算 机 就 不 再 使 用 
这 个 一 次 性 密码 。 人 侵 者 仅 可 以 拷贝 曾经 使 用 过 的 一 次 性 密码 。 这 种 方法 的 主要 思想 是 目标 计算 机 和 用 户 
对 一 次 性 密码 有 序列 表达 成 了 协议 。 认 证 机 制 会 使 得 用 户 从 列表 中 选择 一 次 性 密码 ， 然 后 不 会 再 次 使 用 这 
个 密码 。 

简单 地 说 ， 该 方法 将 问题 转化 成 目标 计算 机 认证 机 制 如 何 产生 一 次 性 密码 列表 并 安全 地 将 列表 发 送 给 
用 户 。 对 一 次 性 密码 系统 的 改进 是 安全 列表 不 必要 被 发 布 。 这 种 技术 取决 于 单 向 函数 的 存在 一 一 函数 f, 
它 是 容易 计算 (Bl y= (2) 容易 计算 ) 的 。 但 是 反 过 来 就 很 难 计算 了 〈 即 当 你 知道 y 值 时 ， 很 难 计算 r 
=f} (y))。 这 种 函数 对 不 同 的 保护 机 制 是 非常 重要 的 ， 如 我 们 所 看 到 的 ， 它 们 被 广泛 应 用 在 加 密 算法 
中 ( 见 14.4 节 )。 目 标 机 器 使 用 单 向 函数 来 产生 N 个 不 同 的 一 次 性 密码 序列 ;在 安全 会 话 中 ， 目 标 机 器 
认证 机 制 获得 用 户 的 安全 密码 。 密 码 结合 种 子 值 (用 户 选 择 ) 建立 一 个 新 的 字符 串 zx。 序列 中 的 第 一 个 密 
码 可 以 用 单 向 函数 对 z 应 用 N 次 来 得 到 .; 

y= fx) = FF FC (f(r) +) 
第 二 个 密码 ，y1 可 以 用 函数 对 密码 字符 串 应 用 N- 1 次 来 得 到 ; 
y= Mx) 








RP RRL 361 





依 此 类 推 。 这 意味 着 人 侵 者 为 了 预测 一 次 性 密码 y;， 必 须知 道 广 *， 在 假定 他 们 检测 到 密码 -1 的 前 提 
下 ， 也 要 能 计算 出 广 !。 利 用 /来 确定 . 广 ! 是 不 可 能 的 。 下 面 进行 解释 : 
y= file) 
所 以 
yer EPT E (a) = fa) = fC AI(z))= 第 ;个 一 次 性 密码 

目标 计算 机 认证 机 制 通过 给 用 户 序列 号 ;， 以 及 一 次 性 密码 序列 的 种 子 ， 提 示 用 户 登 录 及 提供 正确 的 
一 次 性 密码 。 用 户 要 用 yw 一 一 来 自 一 次 性 密码 列表 的 第 i 个 密码 进行 回应 。 

现在 ， 用 户 可 以 以 下 面 两 种 方式 之 一 来 使 用 系统 : 当 目标 计算 机 的 认证 机 制 产 生 N 个 一 次 性 密码 时 ， 
用 户 可 以 使 用 安全 连接 来 得 到 它 的 一 份 拷贝 。 为 了 安全 ， 密 码 列表 常常 作为 一 个 打印 的 拷贝 建立 ， 用 户 必 
须要 对 它 进行 保护 。 每 次 用 户 访问 目标 系统 时 ， 列 表 被 用 来 提供 一 次 性 访问 密码 。 拷 贝 必须 要 细心 保护 ， 
因为 列表 被 丢失 或 公开 泄漏 ， 一 次 性 密码 序列 就 无 效 了 。 第 二 种 方法 就 是 让 用 户 本 地 计算 机 运行 一 个 程 
序 ， 它 实现 了 单 向 函数 来 产生 正确 的 一 次 性 密码 。 然 后 ， 当 认证 机 制 要 用 户 提供 一 次 性 密码 时 ， 用 户 简单 
地 运行 一 个 程序 来 在 单 向 函数 中 实现 种 子 和 私有 密码 : 程序 响应 正确 的 一 次 性 密码 ， 密 码 被 发 送 给 目标 计 
算 机 。 

在 作为 一 次 性 密码 的 S/KEY 实现 方法 被 引进 后 ， 它 很 快 流行 起 来 了 。 对 UNIX 和 Windows 机 器 来 说 ， 
AKEH S/KEY 产生 器 程序 可 用 ， 甚 至 也 有 很 多 可 用 于 个 人 数字 助理 (PDA)。 这 说 明 S/KEY 是 一 种 有 
效 地 实现 一 次 性 密码 的 机 制 。 

扩展 机 制 

实际 上 ， 让 软件 来 产生 一 次 性 密码 访问 远程 目标 计算 机 是 很 方便 的 。 假 定 在 计算 机 的 一 个 小 卡 上 实现 
用 户 身份 信息 一 一 可 能 是 PCMCIA 卡 ， 用 于 PDA 的 CF 卡 ， 以 及 具有 物理 形式 用 户 信息 的 任何 “智能 卡 "。 
这 就 没有 必要 让 软件 来 产生 一 次 性 密码 。 | 

在 现代 计算 机 系统 中 ， 计 算 机 使 用 物理 扩展 作为 认证 的 重要 部 分 的 思想 在 广 为 使 用 。 想 像 一 下 ， 有 一 
个 物理 安全 策略 的 公司 需要 每 个 雇员 或 参观 者 佩戴 一 个 带 个 人 照片 和 机 器 可 读 的 信息 (如 信用 卡 背 后 的 磁 
条 ， 或 用 来 标识 商业 产品 的 条 形 码 ) 的 徽章 。 在 这 种 环境 下 ， 每 个 计算 机 可 以 采用 一 个 认证 机 制 来 读 取 微 
章 上 的 信息 ， 使 用 信息 作为 认证 过 程 的 一 部 分 。 

扩展 读 徽章 机 器 的 思想 ， 计 算 机 可 以 采取 任意 的 手段 来 确保 用 户 就 是 他 或 她 所 声称 的 身份 。 如 认证 包 
括 了 类 做 于 银行 使 用 的 那 种 技术 ， 它 可 以 允许 一 个 人 通过 电话 来 进行 帐号 现金 转移 。 用 户 需要 提供 除了 密 
码 外 的 额外 信息 ， 这 取决 于 认证 一 个 用 户 所 采取 的 策略 。 当 代 保护 系统 可 能 使 用 如 指纹 和 眼睛 扫描 识别 的 
方法 作为 认证 的 一 种 形式 。 


14.2.2 内 部 的 线程 /进程 认证 


当代 的 内 部 认证 机 制 一 般 来 说 依赖 于 操作 系统 进程 管理 器 的 正确 性 。 每 个 线程 和 进程 都 有 自己 的 描述 
R, 它们 由 进程 管理 器 来 维护 。 通 常情 况 下 ,线程 和 进程 描述 表 的 内 容 不 能 被 用 户 空间 的 程序 访问 ， 尽 管 
许多 操作 系统 实现 允许 操作 系统 的 其 他 部 分 来 读 写 描述 表 。 

内 部 认证 取决 于 可 信和 软件 来 管理 描述 表 ， 使 得 当 一 个 线程 或 进程 试图 访问 内 部 信息 或 资源 时 ， 进 程 管 
理 器 提供 不 可 伪造 的 标识 符 来 作为 进程 或 线程 的 一 部 分 。 任 何 内 部 认证 机 制 使 用 线程 或 进程 描述 表 来 直接 
访问 描述 表 ， 它 可 以 获得 操作 系统 知道 的 有 关 进 程 或 线程 的 所 有 信息 。 

作为 对 认证 的 辅助 ， 大 多 数 的 当代 CPU 带 有 一 个 进程 状态 寄存 器 ， 它 在 每 次 上 下 文 交换 时 都 会 改变 
其 内 容 。 在 基于 线程 的 操作 系统 中 ， 进 程 状态 寄存 器 提供 了 一 种 唯一 的 不 可 伪造 的 线程 标识 。 在 经 典 的 单 
线程 进程 系统 中 ， 寄 存 器 包含 了 进程 标识 符 。 


14.2.3 网络 中 的 认证 


Internet 的 出 现 对 保护 和 安全 提出 了 更 多 的 要 求 。 尽 管 有 一 些 问题 是 有 关 认 证 的 ， 但 大 多 数 的 技术 着 
重 于 加 密 。 当 Internet 开始 广泛 地 使 用 时 ,很 多 经 典 应 用 出 现 了 安全 漏洞 。 在 20 世纪 80 年 代 晚 期 ，Cor- 
nell 的 一 个 研究 生 在 一 个 经 典 的 应 用 中 发 现 了 认证 机 制 的 一 个 缺陷 ， 这 成 了 全 世界 的 头条 新 闻 。 
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36% (worm) 是 一 个 程序 ， 被 设计 成 能 在 网 络 上 寻找 寄生 和 繁殖 之 所 。 里 虫 能 作为 一 个 文件 进入 机 
器 ,但 是 它 可 以 自己 执行 。 一 旦 包含 蠕虫 的 文件 存在 于 文件 系统 中 ， 蠕 虫 会 寻找 进程 管理 的 漏洞 去 执行 自 
Go Morris 蠕虫 利用 了 finger 命令 人 侵 UNIX 系统 (参见 Communications of the ACM [1989] 和 Stoll 
[1988] 关于 互联 网 蠕虫 的 描述 ) 。 

在 UNIX 系统 中 ,finger name@host 命令 通过 携带 参数 可 以 打印 一 组 有 关 用 户 标 识 的 标准 信息 。 参 数 
中 的 名 字 部 分 可 以 是 在 口令 文件 中 找到 的 任 一 个 用 户 的 名 字 , 因 而 如 果 一 个 人 知道 了 某 个 用 户 的 真实 名 字 ， 
就 可 以 很 容易 地 找到 他 的 登录 名 。 参 数 中 的 主机 部 分 允许 finger 连接 到 一 个 远程 的 机 器 并 在 上 面 查找 有 
关 用 户 的 信息 。finger 命令 也 可 以 打印 出 在 标准 文件 中 所 找到 的 其 他 信息 ,如 .plan 后 级 的 文件 。 作 为 惯 
例 , 用 户 通常 将 私人 信息 放 在 .plan 文件 中 ,但 可 能 以 该 文件 为 基础 能 猜 出 用 户 的 口令 。finger 命令 对 于 电 
子 邮 件 程序 中 定位 登录 名 来 说 非常 有 价值 ,同时 它 也 是 一 种 被 利用 来 收集 信息 人 侵 其 他 系统 的 工具 。 

Morris 蠕虫 在 远程 主机 中 ， 使 用 一 个 对 finger 程序 来 说 太 大 的 名 字 作为 参数 来 执行 finger。 这 会 破 
坏 finger 守护 进程 的 运行 时 栈 ， 因 而 当 守护 进程 结束 这 个 命令 时 ， 它 就 不 能 返回 它 在 执行 finger 调用 之 
前 的 程序 中 。 从 而 守护 进程 分 支 转移 到 一 小 块 代码 中 来 激活 蠕 虫 的 远程 shel 程序 ， 然 后 蠕虫 就 在 人 侵 机 
， 器 中 控制 了 一 个 进程 ， 因 而 通过 它 能 够 使 用 大 量 各 种 资源 并 引起 人 侵 的 机 器 崩溃 。 就 Morris 蠕虫 而 言 ， 它 
被 设计 用 来 在 局 域 网 中 发 现 未 使 用 的 计算 机 周期 一 一 蠕虫 设计 用 来 发 现 一 个 未 使 用 的 机 器 ， 然 后 开始 运行 
一 个 无 害 的 程序 ， 同 时 它 寻 找 其 他 的 未 使 用 的 机 器 。 然 而 ， 蠕 虫 并 不 仅 限于 局 域 网 ， 相 反 ， 它 开始 在 In 
tenet 上 和 运行， 包含 了 在 对 公司 和 政府 很 关键 的 一 些 机 器 上 。 更 进一步 ， 蠕 虫 在 传播 方面 如 此 成 功 ， 它 占 
据 了 和 人 侵 机 器 的 大 多 数 资源 。 而 且 它 是 持久 存储 的 ， 即 使 包含 肾 虫 的 机 器 被 重启 ， 蠕 虫 仍 然 在 机 器 上 。 

文件 传输 机 制 (如 用 来 传输 电子 邮件 连接 的 机 制 ) 也 可 用 来 侵入 计算 机 。 文 件 传输 时 需要 一 台 计算 机 可 
以 将 信息 传输 进 另 一 台 计 算 机 的 系统 文件 空间 。 在 文件 传输 之 前 ,传输 计算 机 必须 获得 对 接收 计算 机 的 访 
间 , 并 且 接 收 计算 机 必须 准备 接收 任意 的 文件 并 将 它 置 人 文件 系统 中 。 文 件 传输 输入 端口 通常 会 采用 一 种 
认证 机 制 来 验证 传输 计算 机 有 权 存 储 文件 ,然而 ,在 许多 系统 中 ,这 个 认证 机 制 并 不 十 分 先进 ,因为 扩展 的 认证 
增加 了 文件 传输 的 开销 。 早 期 在 文件 传输 中 发 现 的 漏洞 是 认证 机 制 包含 了 一 个 默认 密码 。 系 统管 理 员 在 安装 
文件 传输 程序 后 ,很 少 改变 默认 密码 ,因此 ,人 侵 者 可 以 冒充 一 个 协同 远程 文件 传输 的 进程 来 人 侵 计算 机 。 

安全 的 web 通信 

现在 ，Internet 上 的 大 多 数 流量 是 由 web 浏览 器 和 web 服务 器 的 交互 产生 的 。web 服务 器 提供 内 容 ， 
指导 某 种 形式 的 电子 商务 等 。 消 费 者 很 乐意 有 这 样 的 扩展 市 场 ， 他 们 可 以 浏览 信息 、 产品 和 服务 。 当 万 维 
网 发 展 起 来 时 ， 企 业 家 很 快 就 意识 到 了 大 市 场 的 益处 。 然 而 ， 认 证 很 快 就 变 成 了 关键 的 技术 ， 当 企业 家 建 
立 一 个 有 宝贵 内 容 的 web 服务 器 时 一 一 它 是 存储 信息 的 场所 ， 是 可 以 用 钱 来 交换 产品 的 地 方 一 -有 必要 能 
安全 交换 关键 的 信息 〈 例 如 ， 信 用 卡 信息 ) 而 没有 被 窃听 、 拷 贝 并 被 重用 的 危险 。 

今天 ， 安 全 套 接 字 层 (SSL) 和 它 的 后 继 一 一 传输 层 安 全 (TSL) 是 支持 基于 web 认证 的 关键 网 络 组 
件 。 安 全 的 http web 协议 https 使 用 SSL 机 制 来 在 Internet 上 移动 信息 (而 不 是 传统 的 如 TCP 机 制 )。SSL 
和 TSL 的 使 用 使 得 当 信息 通过 Internet 传输 时 ， 它 是 一 个 加 密 的 形式 而 不 是 普通 的 纯 文本 形式 。 

Kerberos 网 络 认 证 机 制 . 

Kerberos 是 一 组 网 络 协议 ， 用 户 可 以 在 一 个 不 安全 网 络 中 的 一 台 计 算 机 上 ， 使 用 该 协议 来 对 另 一 台 计 
算 机 进行 认证 访问 。 即 在 Kerberos 中 假定 通过 网 络 传输 的 信息 可 能 被 窃取 ， 而 且 Kerberos 中 并 不 假定 两 端 
计算 机 中 的 操作 系统 是 安全 的 。 该 技术 于 20 世纪 80 年 代 在 M.I.T. 开发 成 功 ， 到 今天 已 经 被 广泛 应 用 。 
关于 Kerberos 的 因特网 草案 中 提供 了 认证 系统 的 最 近 的 详细 情况 [Kohl and Neuman, 1992], 

在 Kerberos 中 , 它 假定 在 一 台 计算 机 (客户 端 ) 中 的 一 个 进程 ,希望 通过 网 络 通信 来 使 用 另 一 台 计 算 机 
(服务 器 端 ) 中 的 一 个 进程 的 服务 。Kerberos 中 规定 了 认证 服务 器 (authentication server) 和 协议 ,允许 客户 和 
服务 器 在 一 个 特定 的 会 话 中 传送 认证 消息 到 合作 进程 。 下 列 是 协议 需要 遵守 的 步骤 (图 解说 明 见 图 14-5): 

1) 客户 要 求 认证 服务 器 的 服务 器 证 书 (credentials), 

2) 认证 服务 器 随后 把 证 书 作 为 一 个 证 明 书 (ticket) 和 一 个 使 用 客户 的 密 钥 进行 加 密 的 会 话 密 钥 (ses- 
sion key) 返回 客户 。14.4 节 中 解释 了 加 密 的 更 多 详细 情况 ， 但 现在 看 到 只 有 通过 客户 才能 读 取 到 证 明 书 
和 会 话 密 钥 (组 合 的 )。 证 于 下 中 有 包 全 客户 身 份 和 使 用 服务 器 密 钥 加 密 的 会 话 密 钢 的 拷贝 域 这 意味 着 

只 有 服务 器 进程 才能 解释 证 明 书 中 的 域 信息 。 
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图 14-5 Kerberos 会 话 密 钥 的 发 布 
注 ; Kerberos 产生 可 被 客户 和 服务 器 使 用 的 安全 会 话 密 钥 ， 它 用 来 实现 在 不 必要 是 安全 的 IPC 机 制 上 的 安全 交 
互 。 认 证 服务 器 能 对 信息 进行 加 密 ， 只 有 客户 和 服务 器 能 够 对 加 密 的 信息 进行 解密 。 它 利用 这 种 能 力 为 双 
方 提供 证 明 书 和 会 话 密 钥 。 


3) 客户 获得 了 证 书 以 后 ， 它 解密 证 明 书 和 会 话 密 钥 ,保存 一 份 会 话 密 钥 的 拷贝 ， 因 而 它 能 够 认证 从 
服务 器 发 来 的 信息 。 

4) 然后 客户 原样 发 送 带 加 密 域 的 证 明 书 给 服务 器 。 

5) 服务 器 解密 证 明 书 的 拷贝 ， 因 而 它 能 够 获得 客户 身份 和 会 话 密 钥 的 一 份 安全 拷贝 。 

在 这 个 协议 中 认证 服务 器 必须 是 可 信 的 ， 这 是 因为 : 

。 它 有 客户 身份 的 一 份 拷贝 。 

。 它 知道 如 何 加 密 只 有 客户 能 够 解密 的 信息 。 

。 它 知道 如 何 加 密 只 有 服务 器 能 够 解密 的 信息 。 

. 它 能 够 生成 一 个 独特 的 会 话 密 钥 去 加 密 客 户 与 服务 器 之 间 的 逻辑 对 话 。 

由 于 认证 服务 器 能 够 为 客户 和 服务 器 加 密 信息 ， 它 能 够 给 客户 一 个 “容器 ”一 一 证 明 书 ， 它 包含 着 客 
户 不 能 读 取 的 信息 ， 但 可 以 传送 到 服务 器 。 这 类 似 于 有 一 张 信 用 卡 ， 而 它 的 帐号 被 加 密 放 在 它 背 后 的 磁 条 
中 一 样 。 你 〈 客 户 ) 不 能 实际 读 取 磁 条 中 的 内 容 ， 但 当 你 把 卡 插入 一 个 自动 取款 机 中 时 (服务器)， 机 器 
会 从 磁 条 中 读 取 你 的 帐号 信息 。 信 用 卡 就 是 一 个 带 加 密 帐 号 的 “证 明 书 ”( 尽 管 它 没有 会 话 号 码 )。 

在 步骤 1 至 5 结束 后 ， 客 户 进程 和 服务 器 进程 都 有 了 一 份 会 话 密 钥 的 拷贝 ， 是 从 可 信 的 认证 服务 器 中 
作为 加 密 的 信息 收 到 的 。 如 果 不 知道 如 何 解密 ， 网 络 上 的 入侵 者 就 不 能 读 取 加 密 的 信息 ， 也 不 可 能 改变 信 
息 而 生成 有 意义 的 欺诈 证 明 。 另 外 ， 服 务 器 有 客户 身份 的 一 份 可 信 的 拷贝 ， 因 而 当 客 户 发 送 消息 给 服务 器 
时 ， 服 务 器 能 够 认证 客户 身份 和 会 话 密 钥 。 


14.2.4 软件 认证 


软件 认证 关心 的 是 证 实 软 件 模块 是 否 由 可 信 源 建立 ， 以 及 证 实 软 件 被 期 待 执行 所 赋予 的 行为 。 软 件 认 
证 解决 的 是 这 样 的 问题 ， 它 阻止 将 包含 病毒 的 代码 载 人 受 保护 的 计算 机 域 。 在 网 络 认 证 这 一 节 中 ， 我们 讨 
论 了 蠕虫 和 病毒 尽管 对 于 这 些 术 语 没 有 完全 的 定义 ， 卡 内 基 梅 隆 大 学 的 CERT Internet 安全 中 心 ( 见 
http: //www. cert. org/nav/index_main. html) 使 用 术语 “蠕虫 ” 指 代 通过 以 某 种 方式 欺骗 认证 机 制 来 
试图 侵入 计算 机 系统 的 软件 。 媒 体 常 常 将 这 些 活 动 的 人 侵 进程 称 为 “病毒 "， 像 “红色 代码 病毒 ”被 设计 
用 于 发 现 使 用 了 特定 微软 软件 版 本 的 web 站 点 ， 然 后 利用 软件 中 的 某 个 缺陷 使 得 缓冲 区 溢出 并 侵入 目标 计 
算 机 (Morris 蠕虫 用 UNIX 的 finger 命令 来 使 得 缓冲 区 溢出 )。CERT 将 红色 代码 软件 称 为 蠕虫 。 
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CERT 使 用 术语 病毒 (virus) 指 代 隐 藏 在 其 他 模块 中 的 一 个 软件 模块 ， 它 可 能 作为 一 个 漏洞 补丁 或 升 
级 软件 来 替换 某 一 存在 的 模块 ， 从 而 进驻 文件 系统 ; 它 也 可 能 伴随 着 一 个 免费 游戏 或 者 其 他 软件 一 起 被 下 
载 。 这 个 秘密 的 文件 将 会 完成 它 广告 中 所 描述 的 任务 ,但 它 也 将 会 完成 一 些 用 户 看 不 见 的 功能 ， 如 为 人 侵 
者 留 下 以 后 某 个 时 间 可 使 用 的 检测 不 出 的 漏洞 ， 或 者 生成 一 个 破坏 系统 资源 的 程序 。 最 近 几 年 来 ， 病 毒 已 
经 成 为 软件 产业 的 一 个 重要 组 成 部 分 ， 尤 其 是 因为 计算 在 两 个 方面 上 的 发 展 。 第 一 个 方面 ， 软 盘 在 个 人 计 
算 机 用 户 间 的 广泛 使 用 ， 软 盘 就 是 病毒 的 理想 载体 ， 因 为 接收 者 常常 安装 软盘 并 且 运 行 其 上 的 程序 。 其 
次 ， 因 特 网 为 病毒 提供 了 滋生 的 温床 ， 尤 其 是 因为 因特网 提供 了 各 种 邮件 、 新 闻 组 、 网 页 以 及 免费 软件 
等 。 今天， 有 各 种 各 样 的 软件 产品 可 用 于 检测 病毒 的 存在 并 且 (如 果 可 能 的 话 ) 去 除 掉 它们 。 i 

随 着 web 浏览 器 的 广泛 使 用 ， 另 一 类 软件 开始 变 得 流行 起 来 了 : 移动 代码 。 移 动 代码 (mobile code) 
指 的 是 当 需 要 时 可 从 网 络 源 动态 下 载 的 软件 ， 并 在 完成 它 的 任务 后 将 它 销毁 。 移 动 代码 最 常见 的 例子 是 执 
行 在 web 浏览 器 中 的 Java 小 应 用 程序 。 当 一 个 用 户 请 求 来 自 网 站 上 的 内 容 时 ， 网 站 会 将 移动 代码 和 信息 内 
容 一 起 下 载 。 下 载 移动 代码 的 思想 ， 就 是 使 得 用 户 的 web 浏览 器 与 网 络 机 器 间 的 交互 变 得 更 有 效 。 在 考虑 
到 安全 时 ， 关 于 移动 代码 的 明显 问题 是 : 

m 如 何在 下 载 之 前 进行 代码 认证 ? 

a 有 屏障 来 阻止 移动 代码 在 用 户 的 机 器 中 进行 秘密 操作 吗 ? 

目前 ， 在 使 用 Internet 进行 商业 活动 时 ， 软 件 认证 已 经 成 了 一 个 很 重要 的 功能 。 个 人 和 组 织 希 望 将 他 
们 的 计算 机 连接 到 Internet 上 ， 这 样 可 以 访问 大 量 的 信息 和 可 用 的 服务 。 然 而 ， 他 们 并 不 想 让 网 络 连 接 为 
人 侵 者 进入 他 们 的 计算 机 留 下 后 门 。 如 果 目 标 计算 机 打算 支持 外 部 访问 ， 就 可 以 使 用 通常 的 认证 机 制 。 
Internet 上 的 许多 机 器 并 不 希望 被 远程 访问 ， 所 以 没有 登录 机 制 和 用 户 认 证 。 不 提供 登录 机 制 就 阻止 了 本 
节 开 始 所 讨论 的 侵入 问题 。 相 反 ， 认 证 机 制 特别 着 重 于 阻止 蠕虫 和 病毒 侵入 目标 计算 机 ， 在 移动 代码 被 加 
载 到 机 器 之 前 ， 要 确保 对 移动 代码 进行 认证 。 

证 书 是 用 于 软件 认证 的 基本 机 制 ， 证 书 是 与 移动 代码 (或 从 Intemet 上 下 载 的 其 他 代码 ) 相关 联 的 数 
字 签 名 。 提 供 移动 代码 的 网 络 主机 和 用 户 计算 机 交换 有 关 移 动 代码 的 加 密 认证 信息 。 这 个 机 制 最 后 告诉 目 
标 计 算 机 用 户 ,来 自 一 个 特定 认证 的 ) 源 的 移动 代码 要 被 下 载 。 用 户 如 果 知 道 移 动 代码 源 的 身份 ， 可 以 
选择 接收 下 载 ， 也 可 以 拒绝 下 载 。 如 果 用 户 选 择 下 载 的 移动 代码 来 自 未 授权 的 源 ， 或 来 自 授权 了 的 但 是 不 
可 信 的 源 ， 则 他 们 显 式 地 跳 过 软件 认证 机 制 ， 当 然 其 后 果 自 负 。 

Hartel 和 Moreau [2001] 发 表 了 一 篇 在 移动 代码 情况 下 ， 有 关 Java (及 Java Card 硬件 ) 安全 性 的 论 
文 。Java 已 经 发 展 成 了 一 种 安全 的 程序 设计 环境 。 它 已 经 取得 继 C+ + 后 的 很 大 的 成 功 。Java 语言 被 很 好 
地 定义 ,使 得 程序 对 它们 运行 的 环境 不 能 有 无 约束 的 访问 。 例 如 ，Java 程序 使 用 对 象 引 用 而 不 是 通常 的 C 
语言 方式 的 指针 以 及 基于 缓冲 区 的 指针 运算 。 运 行 时 系统 也 被 设计 作为 编译 环境 的 一 部 分 ， 可 以 使 编译 器 
根据 语言 定义 来 产生 Java 虚拟 机 可 以 解释 的 代码 。 最 后 ， 在 Java 虚拟 机 中 ， 有 工具 来 解决 安全 缺陷 ， 包 
含 了 可 以 分 析 要 执行 的 字 节 码 的 机 制 ， 例 如 ， 确 保 它们 不 会 上 溢 也 不 会 下 溢 。 

微软 为 软件 认证 也 建立 了 一 种 类 似 于 Java 的 环境 一 一 .NET。 它 依赖 于 目标 计算 机 上 的 公共 语言 运行 
时 (CLR) 软件 。CLR 利用 了 编译 与 运行 时 合作 (这 在 Java 中 是 十 分 成 功 的 )， 它 也 采用 了 一 种 新 的 数字 
证 书 设施 来 对 移动 代码 进行 认证 。CLR 中 最 本 质 的 技术 是 有 注解 的 字 节 码 ， 它 允许 编译 器 传递 额外 的 信息 
给 运行 时 系统 。Java 中 使 用 了 这 种 思想 ，CLR 对 其 进行 了 扩展 。 


14.3 ”授权 


授权 机 制 确保 在 保护 机 制 允许 的 情况 下 ， 用 户 、 进 程 或 线程 能 使 用 计算 机 中 的 安全 实体 。 一 旦 用 户 被 
授权 使 用 一 台 机 器 ， 该 机 器 的 操作 系统 将 分 配 一 个 进程 来 执行 代表 用 户 的 活动 (在 UNIX 中 ,这 是 用 户 的 
登录 进程 )。 在 登录 认证 完成 后 ， 用 户 可 以 使 用 命令 行 解释 器 进程 来 试图 访问 任意 的 信息 和 资源 。 例 如 ， 
用 户 可 以 编辑 系统 密码 文件 。 如 图 14-6 所 暗示 的 ， 对 安全 实体 的 每 次 访问 必须 要 由 实体 的 授权 机 制 进行 
授权 。 

授权 是 管理 资源 ， 特 别 征 资源 共享 任务 的 一 部 分 。 它 的 目标 是 保护 一 个 进程 的 资源 不 受 其 他 进程 活动 
的 破坏 。 假 设 一 个 进程 A 有 资源 妈 、X、 普 以 及 Z， 如 图 14-6 所 示 ， 这 些 资源 中 的 一 些 已 经 与 其 他 进程 
共享 。 例 如 : 


RP REE 365 








SHE BAX W 的 读 访 问 权 ， 同 时 进程 C 有 对 W 的 写 访 问 权 ; 
m 进程 B 有 对 X 的 读 写 访 问 权 ,进程 C 没有 对 X 的 访问 权 ; 
m 进程 C 有 对 Y 的 读 写 访问 权 ， 进程 BRAX Y 的 访问 权 ; 

图 以 及 A 对 Z 有 私有 的 访问 权 。 
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图 14-6 受 控 的 资源 共享 
TE: 当 一 个 进程 试图 访问 一 个 安全 实体 时 ， 授 权 机 制 检查 系统 当前 的 许可 权 来 确定 访问 是 否 应 该 被 许可 。 进 程 
A 控制 资源 WW、X、Y 和 Z。 进 程 B 可 以 对 资源 W 进行 读 访问 ， 它 可 以 对 资源 X 进行 读 写 。 但 是 它 根本 就 
不 能 访问 资源 Y 和 Z。 进 程 C 对 资源 W 有 远程 的 读 访 问 权 ， 可 以 对 资源 Y 进行 读 写 访问 , 但 对 资源 X 和 
Z 没有 访问 权 。 


授权 机 制 一 直 都 是 存在 的 ， 因 为 早期 需要 为 不 同 的 用 户 服务 的 进程 需要 共享 相同 的 计算 机 以 及 相同 
的 文件 。 这 在 多 道 程序 设计 之 前 就 已 经 使 用 了 ， 因 为 每 个 单程 序 机 器 都 支持 文件 。 这 意味 着 一 个 用 户 可 以 
建立 一 个 文件 ， 然 后 保存 它 ， 然 后 完成 它 的 作业 。 随 后 代表 其 他 用 户 运 行 的 作业 应 该 不 能 访问 第 一 个 用 户 
的 私有 文件 。 系 统 需 要 提供 一 种 授权 机 制 来 处 理 这 种 情况 。 

尽管 授权 一 直 是 操作 系统 设计 的 一 项 需求 ， 然 而 在 操作 系统 的 早期 ， 它 仅 作为 事后 补充 加 入 到 操作 系统 
的 设计 中 。 之 所 以 会 发 生 这 种 情况 ， 是 因为 操作 系统 的 设计 目的 与 使 用 目的 可 能 不 一 致 ， 在 设计 后 被 采用 到 
另 一 个 系统 中 (如 UNIX 的 情况 )。 由 于 实现 授权 机 制 的 开销 太 高 ， 所 以 它 被 忽略 了 。 操 作 系 统 设计 者 解释 
了 在 Multics 操作 系统 中 如 何 开 发 合理 的 有 效 授权 机 制 [Organick，1972]， 即 使 实现 和 运行 时 的 开销 很 高 。 

从 1970 年 开始 ， 操 作 系 统 设计 者 是 如 何 重 视 安全 问题 的 呢 ? 大 多 数 的 努力 花费 在 14.2 节 描 述 的 
认证 机 制 上 。 偶 尔 有 授权 机 制 的 需求 一 一 特别 是 文件 和 存储 保护 一 一 有 一 些 广泛 使 用 的 (但 是 特别 的 ) 方法 。 


14.3.1 特别 的 授权 机 制 


操作 系统 设计 者 一 直 意 识 到 有 关 保 护 和 授权 的 威胁 ， 因 此 对 操作 系统 组 件 增 加 了 一 些 形式 的 保护 机 
制 ， 几 乎 都 是 作为 事后 的 补充 。 两 种 特别 的 授权 机 制 是 文件 保护 和 存储 锁 。 

文件 保护 

UNIX 文件 保护 机 制 是 很 著名 的 、 简 单 的 授权 机 制 。 每 个 UNIX 用 户 被 一 个 称 为 UID 的 用 户 标识 符 所 
标识 。 每 个 用 户 可 以 属于 不 同 的 用 户 组 ， 被 一 个 组 标识 符 (GID) 所 标识 。 进 程 的 UID 和 GID 为 进程 描述 
表 的 一 部 分 ， 意 味 着 当 进 程 试图 访问 文件 时 ,系统 程序 可 以 很 容易 地 检查 UID 和 GID. 

14-7 是 执行 1s-1g 的 结果 。 在 一 个 包含 两 个 子 目录 (Tools 和 bin) 和 三 个 文件 (Makefile, bang- 
fix 和 cover.tex) 的 目录 中 ， 目 录 列 表 显 示 了 登录 名 为 gin 的 用 户 拥 有 的 每 个 文件 。Makefile 和 bin 的 组 
IDX rtsg, Tools 的 组 ID 为 ctrg， 其 他 的 都 在 faculty 中 。 每 行 中 的 前 10 个 字符 描述 了 所 访问 的 是 目录 
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还 是 文件 ， 以 及 访问 它们 的 权限 。 
n 第 一 个 字符 位 置 如 果 为 d， 意 味 着 这 一 项 是 目录 ,“- ”意味 着 这 一 项 是 文件 。 
m 随后 的 9 个 字符 可 以 分 成 三 个 字符 组 来 解释 : 
。 第 一 组 描述 了 文件 所 有 者 gjn 对 文件 或 目录 的 许可 权 。 
。 第 二 组 描述 了 文件 所 属 组 成 员 对 文件 或 子 目 录 的 访问 权 (组 有 rtsg、ctrg 和 faculty). 
。 第 三 个 字符 组 描述 了 所 有 其 他 的 用 户 一 一 称 为 世界 (world) 许可 位 一 一 对 文件 或 目录 的 访问 权 。 














-r--r----- 1 9jn rtsg 2335 Apr 11 1996 Makefile 
drwxr-xr-x 2 gjn ctrg 512 Feb 5 10:27 Tools 
---x--X-—-- 1 gjn faculty 37846 Feb 4 12:42 bangfix 
drwxr-xr-x 3 gjn rtsg 512 Feb 5 11:36 bin 


-Yw-rw-r-- 1 gjn faculty 853 Jan 6 1996 cover.tex 





图 14-7 UNIX 文件 保护 屏蔽 码 
HE: UNIX 文件 保护 屏蔽 码 指定 了 所 有 者 、 组 成 员 和 其 他 用 户 对 文件 的 访问 类 型 。 在 左边 显示 的 10 个 字符 的 屏 
项 码 中 ， 如 果 文 件 是 一 个 目录 ， 则 最 左边 的 字符 为 4， 否 则 为 - 。 下 面 的 三 个 字符 指定 文件 所 有 者 的 读 
(r)、 写 (w)、 执 行 (x) 权限 。 再 后 三 个 字符 是 文件 组 成 员 的 权限 ， 最 后 三 个 字符 为 所 有 其 他 进程 的 权限 。 


如 果 在 三 个 字母 组 成 的 字符 组 中 ， 第 一 个 位 置 为 =， 相 应 的 用 户 (所 有 者 、 组 或 世界 ) 对 文件 或 目录 
有 读 权 限 ;“- ”意味 着 用 户 没有 读 权限 。 第 二 个 位 置 表示 写 权 限 w， 第 三 个 位 置 表 示 执 行 权限 x。 文件 
Makefile 的 设置 使 得 gjn 和 rtsg 的 任何 成 员 对 文件 有 读 权 限 。 任 何 用 户 进 程 可 以 读 cover. tex 文件 ， 但 是 
仅 faculty 的 成 员 和 gjn 可 以 对 文件 执行 写 操作 。 

文件 管理 器 实现 了 授权 机 制 。 当 一 个 进程 试图 打开 文件 时 (〈 读 、 写 或 执行 文件 的 先决 条 件 )， 文 件 管 
理 器 的 open () 函数 首先 确定 试图 执行 open () 函数 的 进程 身份 ,文件 管理 器 会 知道 进程 是 文件 所 有 者 ， 
还 是 给 定 组 的 成 员 ， 还 是 代表 任何 其 他 用 户 执行 的 进程 。 假 定 一 个 进程 p, 试 图 打开 图 147 中 一 个 名 为 
cover.tex 的 文件 ， 并 准备 对 其 进行 写 操作 : 如 果 执 行 open () 的 进程 属于 文件 所 有 者 ， 则 文件 管理 器 会 
批准 这 次 访问 。 同 样 地 ， 如 果 进 程 属于 faculty 组 的 某 个 用 户 , 文件 管理 器 也 会 批准 这 次 访问 ， 然 后 完成 
open () 操作 。 然 而 ， 如 果 进 程 的 所 有 者 既 不 是 文件 所 有 者 ， 也 不 是 faculty AMAA, 文件 管理 器 会 拒 
绝 完成 open () 操作 来 抵制 对 文件 的 访问 。 

作为 UNIX 中 一 个 附加 的 特征 ， 每 个 文件 有 一 个 setUID 标志 位 ， 
当 进 程 执行 文件 中 的 软件 模块 时 ， 它 可 以 临时 地 增加 进程 的 权限 。 
当 任何 用 户 程序 加 载 文件 中 标志 位 setUID 被 置 位 的 程序 时 ， 当 进程 进程 
执行 存储 在 该 文件 中 的 程序 时 ， 就 会 假定 进程 的 UID 就 为 文件 所 有 
者 的 UID。 这 可 以 写 一 个 程序 来 执行 属于 特定 用 户 的 特定 数据 操作 ， 
所 以 潜在 地 任何 进程 可 以 更 新 那些 特定 数据 (但 是 仅 在 文件 的 setU- 
ID 被 设置 时 才 可 以 实现 该 功能 )。 

存储 锁 和 键 值 

从 20 世纪 70 年 代 开 始 ， 对 于 存储 对 象 的 保护 ， 人 们 已 经 付出 
了 相当 大 的 努力 并 采用 了 特定 的 授权 机 制 。 可 分 配 的 存储 单元 可 以 
是 一 个 字 、 一 个 分 区 、 一 个 页 面 或 一 个 段 。 在 20 世纪 60 年 代 ， 机 器 
有 时 对 每 个 可 分 配 的 六 字 节 块 使 用 存储 锁 。 假 定 每 个 这 样 的 块 被 指 
定 了 位 锁 值 ， 并 且 每 个 进程 描述 表 包 含 了 位 键 值 设置 ( 见 图 图 14.8 ”存储 锁 
14-8)。 当 存储 块 被 分 配给 进程 时 ， 锁 被 设置 成 进程 的 键 值 。 进 程 键 值 注 : 存储 锁 是 指派 给 可 分 配 存储 块 
和 存储 锁 仅 可 用 特权 指令 进行 设置 。 通 过 将 键 值 保存 在 CPU 寄存 器 的 二 进 制 位 图 。 一 个 进程 提供 
中 ， 与 存储 器 中 的 一 个 锁 寄 存 器 协同 工作 ， 可 以 通过 硬件 来 对 每 次 存 了 与 存储 锁 相 同位 数 的 键 值 ， 
储 访 问 进行 检查 。 当 块 中 的 字 被 访问 时 ， 就 将 锁 加 载 到 锁 寄 存 器 。 如 如 果 键 值 与 存储 锁 位 图 相同 ， 
果 锁 寄存 器 和 键 值 是 相同 的 ， 就 允许 访问 。 否 则 ， 访 问 将 导致 一 个 自 则 进程 可 以 访问 该 存储 块 。 
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陷 进 入 操作 系统 。 在 20 世纪 60 年 代 的 计算 机 中 ，h = 16 日 =4。 这 意味 着 要 么 多 道 程序 设计 的 度 限制 为 
16， 要 么 锁 值 和 键 值 被 重用 ， 这 使 得 一 个 进程 的 键 值 偶尔 可 以 打开 另 一 个 进程 持 有 的 存储 锁 。 

这 种 方法 很 容易 实现 ， 在 运行 时 也 非常 有 效 ， 特 别 是 使 用 动态 存储 分 配 的 系统 。 然 而 ， 它 不 能 区 别 不 
同类 型 的 访问 ， 它 不 能 在 用 户 进程 间 实 现 共 享 ， 因 为 键 值 和 锁 必 须 准 确 匹 配 。 共 享 问题 可 以 通过 为 特定 的 
使 用 保留 相应 键 值 来 补救 。 例 如 ， 对 任何 一 个 有 超级 用 户 权限 的 主体 来 说 ， 键 值 可 以 是 “主键 "。 相 应 的 
锁 值 意味 着 该 存储 块 是 可 被 任何 对 象 访问 的 “未 保护 的 ”存储 块 。 这 样 超级 用 户 访问 和 共享 就 可 以 实现 
了 ， 尽 管 这 种 共享 机 制 很 脆弱 。 l 


14.3.2 授权 的 通用 模型 


尽管 没有 多 少 通用 的 安全 机 制 ，Graham 和 Denning 还 是 描述 了 设计 及 实现 授权 机 制 和 策略 的 通用 模型 
[Graham and Denning，1972]。 (其 他 人 ,包括 Lampson， 对 这 个 模型 作出 了 实际 性 的 贡献 ， 但 是 Graham 
和 Denning 提供 了 模型 的 广泛 可 访问 的 描述 。) 在 这 个 小 节 里 ， 我 们 将 介绍 模型 如 何 将 保护 机 制 各 方面 统 
一 起 来 ， 以 及 它 如 何 与 授权 安全 策略 相关 。 

通常 情况 下 ， 一 个 系统 中 有 主动 部 分 和 被 动 部 分 之 分 。 系 统 的 主动 部 分 如 进程 或 线程 代表 用 户 在 活 
动 ， 而 被 动 部 分 对 应 于 资源 ， 在 保护 文献 中 被 称 之 为 对 象 (objects)。( 这 里 所 描述 的 保护 对 象 不 同 于 “ 面 
向 对 象 程序 设计 中 的 对 象 "， 在 这 里 使 用 “对 象 ”一 词 是 因为 它 在 保护 文献 中 普遍 被 使 用 。) 在 下 面 所 描述 
的 保护 模型 中 ， 进 程 要 根据 权限 中 所 规定 的 方式 来 访问 对 象 。 

授权 机 制 应 该 能 够 确定 特定 的 权限 一 一 称 为 访问 权限 ， 即 在 任意 给 定 的 时 刻 ， 任 何 进程 对 任何 对 象 所 
有 的 访问 权限 。 因 此 ， 在 任意 给 定时 候 都 有 效 的 访问 权限 反映 了 系统 的 安全 策略 并 对 授权 机 制 提供 了 特定 
的 指示 。 当 然 ， 这 些 访 问 权限 必须 要 被 保护 ， 以 免 受到 一 般 的 访问 特别 是 防止 被 重 写 。 它 们 应 该 根据 
安全 策略 来 进行 修改 。 注 意 ， 即 使 一 个 进程 可 以 被 授权 对 一 个 对 象 进 行 读 访问 ， 它 并 不 一 定 有 写 访问 权 
限 。 也 就 是 说 ， 授 权 关 心 的 是 在 任意 给 定 的 时 刻 ， 所 允许 的 特定 访问 类 型 。 

在 现代 操作 系统 中 ， 一 个 进程 在 不 同 的 时 刻 对 一 个 对 象 有 不 同 的 权限 ， 取 决 于 它 当 时 所 执行 的 任务 。 
例如 ， 进 程 在 执行 一 个 正常 的 用 户 态 应 用 程序 。 进 程 所 拥有 的 权限 通常 与 它 的 用 户 有 关 。 然 而 ， 当 进程 进 
行 系统 调用 时 ， 它 开始 执行 系统 函数 ， 然 后 拥有 操作 系统 的 访问 权限 ( 当 它 在 核心 态 时 ， 包 括 使 用 CPU)。 
另 一 个 改变 访问 权限 的 例子 来 自 UNIX， 回 忆 一 下 如 果 一 个 进程 执行 来 自 文件 的 程序 ， 文 件 的 setUID 位 被 
设置 了 ， 执 行进 程 会 临时 假定 有 文件 所 有 者 的 权限 一 一 甚至 可 能 是 超级 用 户 权限 。 

车 把 任意 时 刻 一 个 进程 所 拥有 的 特定 权限 集合 作为 它 的 保护 域 (protection domain)， 则 任何 有 关 访 问 
的 决定 都 必须 考虑 该 正在 执行 进程 的 保护 域 。 主 体 (subject) 是 正在 一 个 特定 保护 域 中 执行 的 进程 。 例 如 ， 
主体 X 可 能 是 作为 一 个 应 用 程序 执行 的 进程 P， 主 体 Y 可 能 是 正在 执行 一 个 系统 调用 的 同一 进程 P。 主 
体 Z 可 能 是 执行 setUID 位 被 设置 的 文件 的 进程 。 

“访问 类 型 ”的 概念 也 可 以 从 文件 类 访问 操作 中 一 般 化 成 包括 一 个 进程 如 何 控制 另 一 个 进程 等 的 访问 
类 型 。 主 体 也 是 对 象 但是， 并 不 是 每 个 对 象 都 是 主体 )。 这 意味 着 对 象 集合 包括 系统 中 的 所 有 被 动 元 素 
( 非 主 体 对 象 ) 及 系统 的 所 有 主动 元 素 (主体 )。 现 在 ， 基 本 的 保护 模型 可 以 根据 系统 、 主 体 、 对 象 以 及 说 
明 主 体 和 对 象 之 间 动 态 关系 的 机 制 来 进行 描述 。 

一 个 保护 系统 由 对 象 集合 、 主 体 集合 以 及 说 明 保护 策略 的 规则 集合 所 组 成 。 它 表示 了 主体 对 对 象 的 可 
访问 性 ， 这 通过 系统 的 保护 状态 (Protection state) 来 定义 。 系统 保证 一 个 主体 S 对 对 象 的 每 次 访问 
(图 14-9) 都 会 要 检测 保护 状态 。 内 部 保护 状态 只 能 根据 实现 外 部 安全 策略 的 规则 集合 进行 改变 。 

保护 状态 能 够 被 概念 化 为 一 个 访问 算 阵 (access matrix), ， 即 访问 矩阵 是 实现 保护 状态 的 一 种 实际 方法 。 
一 个 访问 矩阵 A 中 每 个 主体 占 一 行 ， 每 个 对 象 占 一 列 ; 由 于 进程 需要 能 够 对 其 他 进程 实行 控制 ， 所 以 每 个 
主体 也 是 一 个 对 象 。A [S，X] 中 的 每 个 条 目 是 描述 主体 S 对 于 对 象 X 所 拥有 的 访问 权限 的 集合 。 

每 次 访问 都 会 涉及 以 下 的 步骤 (参见 图 14-10): 

1) 主体 S 开始 对 对 象 X 进行 类 型 为 a 的 访问 。 

2) 保护 系统 验证 S 并 生成 代表 S 的 (S，a，X)， 由 于 系统 支持 身份 认证 ， 因 而 主体 不 能 伪造 一 个 主 
体 标 识 。 

3) 对 象 X 的 监控 程序 询问 A [S，X]。 如 果 a€ A [1S，X]， 那 么 访问 是 有 效 的 ， 理 则 是 无 效 的 。 
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图 14-9 一 个 保护 系统 
注 : 保护 系统 的 一 般 模 型 使 用 保护 状态 来 确定 任何 主体 对 对 象 是 否 有 访问 权 。 保 护 状 态 根据 一 组 固定 的 状态 变 
换 集 来 改变 ， 可 允许 的 状态 变换 由 规则 来 定义 。 想 要 的 安全 策略 被 编码 成 规则 集 。 


访问 认证 监控 程序 





图 14-10 用 访问 矩阵 表示 保护 状态 
TE: 访问 矩阵 是 描述 保护 状态 的 行为 和 目的 的 直观 方式 。 访 问 和 矩阵 表示 了 每 个 主体 对 每 个 对 象 的 访问 类 型 。 


使 用 访问 矩阵 来 表示 保护 状态 ， 可 以 实现 很 多 不 同 的 安全 策略 。 例 如 ， 假 设 一 个 简单 系统 的 组 成 如 

"Ps 
主体 = {S,, S2, S3! 
WR = 主体 U {Fi, Fo, Di, D2} : 

其 中 Fi 和 下 ,是 文件 ，D1 和 DD, 是 设备 。 图 14-11 中 的 访问 矩阵 表示 了 一 个 系统 保护 状态 的 例子 ， 每 个 主体 
都 有 对 自己 的 control 特权 ，Si 对 S.A block, wakeup, owner 特权 ， 以 及 对 S34 control 和 owner 特权 。 
S1 使 用 read « 或 writex 方式 来 访问 文件 Fi ，S; 是 文件 Fi 的 所 有 者 ，S3 对 文件 FBT WG delete iia]. 

给 定 图 14-11 所 示 的 保护 状态 例子 ， 例 如 ， 如 果 Ss 试图 对 已 进行 update 访问， 那么 授权 机 制 会 介入 
并 检查 是 否 有 此 授权 。 当 S: 发 出 update 操作 ， 引 起 保护 系统 生成 一 个 形 如 (S2, update, F,) 的 记录 ， 
该 记录 传 给 下, 的 监控 程序 ， 它 将 询问 A [S2 F] HF update A [S F] 中 ， 因 而 访问 是 有 效 的 ， 
主体 被 允许 更 新 文件 对 象 。 如 果 Ss 试图 对 ,进行 执行 访问 ， 那 么 它 初始 化 访问 后 ， 引 起 保护 系统 生成 一 
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NER (S2, execute, F,) 的 记录 ， 该 记录 传 给 FF, 的 监控 程序 ， 它 将 询问 A [S2, F,]. HF execute 
不 在 A [S2, Fo] 中 ， 因 而 访问 是 无 效 的 ， 并 且 侵 害 情况 被 报告 给 操作 系统 。 














Si S2 Sa F, kd F: D, D: 
—— | 
Sı control block control read * seek owner 
wakeup owner write * 
owner 
S: control stop ower update Owner seek * J 
control delete execute 
S3 owner 














图 14-11 一 个 保护 状态 例子 
TE: 这 个 例子 解释 了 每 个 主体 对 每 个 对 象 的 访问 权限 。 例 如 ，S; 对 F 有 update 的 访问 权 ，S3 对 F, 有 execute 和 
owner 权限 ，S, 对 S; 有 control 访问 权 。 


14.3.3 ”实现 安全 策略 


如 图 14-9 中 所 示 ， 保 护 状态 可 以 通过 可 接受 的 状态 变换 来 改变 。 可 以 在 访问 和 矩阵 实现 中 从 各 个 条 目 
中 增加 或 删除 访问 类 型 ， 甚 至 可 以 将 列 / 行 增加 到 访问 矩阵 中 。 保 护 状态 中 的 任何 变换 都 将 与 安全 策略 相 
一 致 。 在 通用 的 模型 中 ， 这 可 以 通过 将 安全 策略 指定 为 一 组 完全 的 、 明 确 的 策略 规则 (policy rules) 来 
完成 。 这 些 规则 描述 了 在 给 定安 全 策略 下 可 人 允许 的 状态 变换 。 也 就 是 说 ， 通 过 选择 出 现在 访问 矩阵 中 的 访 
问 类 型 以 及 为 保护 状态 变换 指定 一 组 规则 ， 可 以 对 策略 加 以 详细 说 明 。 在 此 ， 我 们 使 用 来 自 Graham 和 
Denning [1972] 的 一 个 规则 集 例子 来 说 明 如 何在 主体 之 间 传 递 权 限 。 

例如 ， 图 14-12 中 所 示 的 规则 实现 了 一 个 特定 的 保护 策略 ， 它 们 使 用 图 14-11 中 的 访问 类 型 进行 定义 。 
在 图 中 ， 有 一 组 可 被 So 执行 的 命令 。 每 个 这 样 的 命令 (transfer、grant 和 delete) 以 某 种 方式 来 改变 保 
护 状 态 。 表 中 标 有 “授权 ”的 列 描述 了 在 So 开始 执行 相应 的 命令 之 前 ， 必 须 满足 的 条 件 。 如 果 命 令 被 授 
权 了 ， 它 的 效果 就 出 现在 标 有 “效果 ”的 列 中 。 例 如 ，So 可 能 试图 授权 (grant) S3 进 行 D; 的 读 访 问 ， 如 
果 恰好 omer 属于 A [So，X] 该 命令 能 被 执行 ， 因 而 引起 read 访问 权 被 加 到 A [Ss, D] Po 














规则 Sy 执行 的 命令 授权 效果 | 
a transfer lale *| to (S, X) a*€A [So X] A [S, X] =A [S, X] U lala*} 

2 grant fala *} to (S, X) owner€ A [So, X] A [S, X] =A [S, X] U falaz} 

3 delete a from (S, X) controlE A [So, S] A [S, X] =A ÍS, X] - fa} 


or 


owner€ A [So, X] 








图 14-12 策略 规则 的 例子 
注 ; 在 这 个 例子 中 ，transfer 规则 人 允许 授权 的 主体 可 以 将 访问 权 传 递 给 另 一 个 主体 。grant 规则 允许 对 象 拥 有 者 为 
任何 一 个 对 象 分 配 访问 权 。delete 规则 用 来 移 除 访问 权限 。 


在 上 述 策 略 规 则 中 ， 符 号 “ x ”被 称 为 拷贝 标志 。 如 果 进 程 So 有 对 X 的 访问 权限 并 且 对 X 的 a 访问 
权限 中 置 位 拷贝 标志 ( 即 ax 属于 A [So X]), 那么 Se 可 以 传递 对 对 象 X 的 访问 权限 a 给 另 一 个 进程 
S。 在 图 14-11 中 ， 因 为 S; 在 读 访问 上 有 拷贝 标志 ， 所 以 S1 可 以 通过 传递 对 Fl 的 read 或 read* 访问 给 S, 
或 5; 来 改变 保护 状态 。 根 据 规则 2， 假定 So 拥有 X， 那 么 主体 So 可 以 grant 任何 对 于 对 象 X 的 访问 
无 论 有 没有 设置 拷贝 标志 。 
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拷贝 标志 和 规则 的 设计 是 为 了 防止 不 加 区 别 地 在 主体 之 间 扩 散 访问 权限 。 一 种 权限 只 有 在 所 有 者 传递 
拷贝 标志 给 另 一 个 主体 时 才能 扩散 ， 拷 贝 标志 能 够 从 一 个 主体 传递 到 另 一 个 ， 或 者 权限 被 传递 到 一 个 主体 
的 同时 清除 拷贝 标志 。 规 则 transfer 是 非 破坏 性 的 拷贝 规则 。 而 另 一 策略 中 可 能 要 求 transfer 是 破坏 性 
的 ， 这 意味 着 当 非 所 有 者 主体 传递 一 个 访问 到 另 一 个 主体 时 ， 第 一 个 主体 就 会 丢失 它 自己 的 访问 权 。 这 种 
策略 可 能 对 留意 所 有 者 主体 的 权限 散布 是 有 用 的 。 规 则 delete 用 于 从 另 一 个 主体 中 收回 对 一 个 对 象 的 权 
限 。 在 一 个 主体 能 够 delete 一 个 对 象 之 前 ， 它 必须 要 么 控制 着 即将 失去 访问 的 主体 ， 要 么 是 对 象 的 所 有 
者 。 按 照 这 个 规则 集合 说 明 的 策略 ， 如 果 一 个 主体 是 另 一 个 主体 的 所 有 者 ， 它 也 能 对 整个 主体 进行 控制 。 
这 个 例子 说 明了 确定 机 制 是 否 足 够 实现 一 类 策略 ， 以 及 是 否 机 制 和 策略 结合 起 来 能 实际 实现 一 个 可 接 
受 的 解决 方法 等 问题 的 基本 复杂 性 。 然 而 ， 它 也 表现 了 如 何 利用 规则 构造 一 个 符合 要 求 的 策略 。 
Graham 和 Denning [1972] 表现 了 图 14-12 中 所 示 的 规则 定义 的 一 个 保护 系统 ， 它 可 以 用 于 处 理 本 节 
开始 所 提 到 的 几 种 保护 问题 : 
m 共享 参数 (sharing parameter): 如 果 其 他 的 进程 不 加 区 别 地 改变 其 地 址 空间 内 的 参数 值 ， 这 样 会 违 
反 进 程 资 源 策 略 。 例 如 ， 假 定 进程 调用 某 个 其 他 进程 地 址 空间 内 的 过 程 ， 并 且 被 调用 过 程 修改 传递 
到 过 程 的 参数 ， 这 使 得 当 调用 者 获得 控制 权时 ， 地 址 空间 内 的 变量 已 经 被 被 调用 过 程 修 改 。 
@ 限制 (confinement): 限制 是 共享 参数 问题 的 一 般 化 。 假 定 进程 希望 限制 信息 分 散 到 某 个 特定 的 环 
境 中 ， 其 挑战 是 包含 资源 的 所 有 权限 ， 使 得 不 把 它们 传播 到 某 些 给 定 的 进程 集 外 。 
E 分 配 权限 (allocating right): 保护 系统 可 以 允许 进程 为 另 一 个 进程 提供 特定 的 权限 来 使 用 它 的 资源 。 
在 一 些 情况 下 ， 第 一 个 进程 需要 能 在 任意 时 刻 撤回 这 些 权 限 ， 权 限 仅 能 暂时 分 配给 另 一 个 进程 。 如 
果 一 个 进程 为 另 一 个 进程 提供 权限 ， 并 且 接 收 进程 将 权限 传递 给 其 他 的 进程 而 不 管 资 源 所 有 者 的 许 
可 ， 这 时 会 出 现 一 些微 妙 的 问题 。 在 没有 资源 所 有 者 的 显 式 许可 情况 下 ， 有 些 保护 系统 不 允许 权限 
的 传播 。 
m 特洛伊 木马 (Trojan horse): 特洛伊 木马 问题 是 分 配 权 限 问题 的 一 个 特例 一 一 被 客户 进程 调用 的 服 
务 程序 使 用 自己 的 权限 来 进行 访问 。 如 果 服 务 器 程序 利用 了 客户 进程 的 权限 来 访问 资源 ， 它 就 称 为 
特洛伊 木马 。 


14.3.4 实现 通用 的 授权 机 制 


通用 的 保护 模型 描述 了 一 个 逻辑 组 件 集合 ， 它 可 用 于 解决 不 同 的 保护 问题 。 模 型 采用 了 有 关机 制 来 授 
权 主 体 、 表 示 保 护 状 态 、 通 过 询问 保护 状态 来 检查 授权 ， 以 及 改变 保护 状态 。 模 型 的 保护 状态 元 素 使 用 访 
问 和 矩阵 来 实现 。 也 有 一 些 其 他 的 实现 仅 需 要 对 询问 作出 响应 及 允许 状态 变换 。 

在 操作 系统 设计 中 ， 节 省 开销 是 一 个 很 重要 的 因素 。 对 于 不 同 的 模型 组 件 来 说 ， 什 么 样 的 实现 是 划算 
的 ? 访问 矩阵 如 何 实 现 更 为 有 效 ? 当 在 虚拟 存储 系统 中 时 ， 实 现 一 个 完全 类 似 于 理论 模型 的 系统 的 开销 是 
很 大 的 ， 因 此 可 考虑 一 个 模型 的 近似 实现 。 本 节 将 考虑 不 同 的 实现 策略 。 

一 般 的 保护 机 制 是 基于 保存 保护 状态 的 方法 ， 通 过 查询 状态 来 验证 将 要 进行 的 访问 ， 并 可 以 改变 状 
态 。 在 实现 这 个 机 制 时 有 几 个 问题 需要 考虑 ; 

a 并 不 是 只 能 用 访问 矩阵 才 可 以 表示 保护 状态 ， 但 它 是 大 多 数 实现 的 基础 。 

m 访问 矩阵 必须 保存 在 某 种 安全 的 存储 介质 中 ， 通 过 高 度 可 信 的 机 制 进行 读 写 。 

E 保护 系统 应 该 能 够 认证 一 个 主体 所 请 求 的 每 个 资源 ， 而 不 是 把 该 主体 的 身份 作为 参数 通过 一 个 过 程 

调用 进行 传递 。 

m 设计 的 目标 是 通过 监控 程序 跟踪 所 有 的 访问 ， 这 种 跟踪 将 保证 使 用 当前 保护 状态 验证 每 次 访问 。 

D 保 护 监控 程序 必须 作为 一 个 受 保护 机 制 用 于 实现 规则 ， 其 他 主体 不 可 能 危及 监控 程序 和 状态 转换 机 

制 的 安全 一 一 例如 ， 通 过 共享 它 的 资源 。 

下 一 节 描 述 了 进程 如 何在 不 同 的 域 中 呈现 不 同 的 访问 权限 ， 以 及 如 何在 当代 操作 系统 中 实现 保护 监控 
程序 和 访问 矩阵 。 


14.3.5 保护 域 
图 14-13 是 具有 两 个 保护 域 的 系统 的 可 视 化 表示 ， 例 如 ， 在 采用 一 个 模式 位 的 CPU 中 。 内 部 域 表示 程 
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序 在 核心 态 下 执行 ， 在 保护 的 上 下 文中 ， 称 进程 是 在 管理 域 (supervisor domain) 中 执行 。 在 管理 域 中 进行 


操作 的 程序 比 在 用 户 域 中 有 更 多 的 访问 权限 一 一 例如 ， 有 主 存 访 
问 权 ， 也 有 执行 扩展 指令 集 的 权限 。 如 果 p 是 一 个 进程 ， 那么 主 
体 Sı= (p , user_mode) BH, S = (p , supervisor _ mode) 有 
更 少 的 权限 。 每 个 域 中 的 信息 通常 存储 在 一 个 文件 或 段 中 ， 在 文 
件 描述 表 中 描述 了 其 内 容 被 执行 或 使 用 的 域 。 

上 述 域 的 组 织 ( 如 中 心 环 ) 并 不 表示 任意 的 域 关 系 ， 如 在 
UNIX 中 ， 在 可 执行 文件 上 设置 setUID 位 建立 的 关系 。 然 而 ， 它 是 
具有 在 不 同 域 中 全 排序 的 保护 机 制 的 基础 。( 这 意味 着 在 任何 两 个 
域 间 有 一 个 排序 ， 一 个 域 会 “大 于 ” 另 一 个 域 ， 其 中 ， 管 理 域 大 
于 用 户 域 。) 

两 层 域 的 一 般 化 是 N 个 同心 环 的 集合 ， 称 为 保护 域 环 体系 结 
#) (ring architecture) (参见 图 14-14)。 环 体系 结构 由 Multics 体系 
结构 的 术语 来 描述 ， 因 为 环 体系 结构 首先 在 Multics 体系 结构 中 出 
现 【Organick，1972]。 假 设 保护 系统 结构 为 N 层 保 护 环 ， 其 中 从 


用 户 


图 14-13 一 个 两 层 域 的 体系 结构 

TE: 一 个 两 层 保护 域 系统 的 概念 对 应 
于 具有 用 户 态 和 核心 态 的 CPU 相 
关 概 念 。 在 这 种 视图 中 ， 域 被 表 
示 成 圆圈 ， 最 内 部 的 圆圈 表示 进 
程 有 最 多 权限 的 域 。 


环 Ro 到 R, 支 持 操作 系统 域 ， 并 且 从 环 R,;1 到 RN- 1 被 用 于 应 用 程序 。 因 而 若 i < j) ， 意 味 着 R; 比 R: 有 更 


多 的 权限 。 内 核 最 紧要 的 部 分 (根据 保护 而 定 的 ) 运行 在 环 
Ro 层 ， 接 下 来 操作 系统 中 次 安全 级 运行 在 环 RB, RHE. 
用 户 程 序 的 最 高 安全 级 运行 在 环 R,; 1 层 ， 同 时 次 安全 级 软件 依 
次 运行 在 较 外 的 层次 。 在 这 个 模型 中 ,通常 当 软件 在 最 小 编号 
的 环 层 运 行 时 使 用 硬件 核心 模式 ， 也 许 只 在 Ro 层 (如 同 Mul- 
tics 中 的 情形 )。 操 作 系 统 中 的 这 一 部 分 是 要 最 仔细 设计 和 实现 
的 ， 并且 假 定 被 证 明 是 正确 的 。 

环 中 执行 的 软件 驻 留 在 文件 上 并 且 指 定 了 文件 中 软件 所 热 
行 的 环 (5 UNIX setUID 思想 相对 比 ， 那 里 对 文件 执行 的 域 没 
有 限制 )。 授 权 机 制 提供 了 一 种 进程 可 以 安全 地 改变 域 的 方 
式 一 一 即 穿 过 环 。 如 果 R 中 的 文件 被 执行 ， 则 进程 不 用 特定 
的 许可 就 可 以 调用 R; 中 的 任何 过 程 (; 之 i)， 因 为 这 个 调用 是 
对 外 部 环 的 调用 。 然 而 ， 当 进程 调用 外 部 环 时 ， 操 作 系 统 机 制 
必须 确保 返回 值 和 参数 引用 (这 会 引起 内 环 引 用 ) 会 得 到 允 
许 。 

当 外 部 环 软件 想 要 调用 内 部 环 的 过 程 时 ， 这 可 以 通过 环 看 
守 者 (ring gatekeeper)， 一 个 被 监控 过 程 人 口 点 来 完成 。 任 何 
试图 进入 内 部 环 的 过 程 会 引发 授权 机 制 进行 验证 ， 例 如 ， 为 了 
自 陷 到 Ro 部 分 ， 需 要 调用 Ro 环 看 守 者 。 


当 一 个 进程 进行 了 一 次 成 功 的 内 部 调用 时 ， 它 会 改变 域 ， 即 它 





图 14-14 环形 体系 结构 

TE. 环形 体系 结构 是 两 层 域 的 一 般 化 。 
最 内 层 的 环 表示 了 进程 有 最 多 权限 
的 域 。 次 内 层 有 第 二 多 的 权限 等 。 
最 外 层 的 环 表示 了 进程 有 最 少 权限 
的 域 。 


变 成 了 一 个 不 同 的 主体 。 当 一 个 进程 调 


用 内 部 环 的 过 程 时 ， 目 标 函数 保存 在 内 部 环 的 一 个 不 同文 件 中 。 只 要 进程 在 内 部 环 域 中 执行 过 程 ， 操 作 系 
统 会 临时 地 放大 用 户 的 权限 。 当 进程 返回 到 外 部 环 时 ， 它 会 再 次 改变 域 并 恢复 以 前 的 权限 集 。 
一 般 的 环 结构 并 不 需要 支持 对 内 层 环 的 数据 访问 ， 而 只 支持 内 层 的 过 程 调用 。 保 存在 内 层 环 中 的 数据 ， 能 
够 通过 一 个 相应 的 内 层 环 访问 过 程 来 进行 访问 ， 如 同一 个 抽象 数据 类 型 只 允许 通过 公共 接口 来 访问 它 的 域 一 样 。 
在 Multis 中 ,实现 了 8 个 环 : 4 个 用 于 操作 系统 ，4 个 用 于 应 用 程序 。 像 Windows 和 UNIX 一 样 ， 操 


作 系 统 内 核 在 Ro 中 执行 ， 管 理 程序 运行 在 环 RR, RRR 


于 它们 需要 改变 操作 系统 的 哪 一 部 分 。 


例如 ， 密 码 管理 可 以 运行 在 Ri 中 ， 但 是 将 信息 保存 到 长 效 存储 设备 的 管理 程序 运行 在 Rs 中 。 在 用 户 空间 
中 ， 环 可 以 对 一 组 用 户 进行 排序 ， 例 如 ， 教 师 可 能 将 她 或 他 的 文件 保存 在 R4 中 ， 与 老师 交互 的 学 生 (X 


换文 件 ) 可 能 在 Rs 中 操作 。 
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环 结构 被 用 于 当代 计算 机 体系 结构 中 。 例 如 ，Intel 80386 微 处 理 器 中 提供 了 一 个 类 似 于 这 里 所 描述 的 
4 层 结 构 。 在 Ine 的 应 用 情形 中 ， 有 3 个 层次 的 指令 集 ， 第 2、3 层 的 指令 是 正常 的 应 用 程序 指令 集 ， 操 
作 系 统 代 码 中 的 非 紧要 部 分 也 假定 在 第 2 层 中 运行 ; 第 1 层 的 指令 包括 I/O 指 令 ; 第 0 层 的 指令 使 用 一 个 
系统 全 局 描述 符 表 管理 段 式 存储 ， 并 且 完 成 上 下 文 切换 。 该 体系 结构 和 它 的 后 续 者 (80486 和 奔腾 微 处 理 
a) 在 第 0 层 中 支持 存储 器 段 操作 ， 同 时 在 更 低 的 安全 层次 中 进行 IMO 操作 一 一 即 LO 操作 可 以 在 一 个 更 
大 的 环 号 域 中 进行 ， 操 作 系统 的 主体 部 分 在 第 2 层 运行 ， 它 的 段 通过 环 结构 得 到 保护 。 


14.3.6 访问 矩阵 的 实现 


到 目前 为 止 ， 访 问 和 矩阵 是 保护 状态 实现 的 基础 。 然 而 ， 访 问 矩 阵 可 以 采用 几 种 方法 来 实现 。 对 于 主体 
和 对 象 的 大 多 数 集合 来 说 ， 矩 阵 将 会 是 稀 下 的 ， 因 为 大 多 数 的 对 象 将 只 能 通过 少数 几 个 主体 访问 ， 而 大 多 
数 的 主体 将 只 能 访问 几 个 对 象 。 如 果 访 问 矩 阵 用 矩形 数组 来 实现 ， 数 组 中 的 许多 条 目 将 是 空 的 。 这 表明 如 
果 要 有 效率 地 实现 ， 可 能 是 使 用 条 目的 列表 ， 而 不 是 存储 在 一 个 二 维 数组 中 的 矩阵 。 

例如 ， 如 果 {al 是 逻辑 上 存储 在 A [S, X] 中 的 字符 串 集 合 ， 那 么 列表 中 就 可 以 包含 形式 为 (S, 
Xj, lol) 的 条 目 。 这 通常 是 稀 朴 矩阵 的 折衷 方法 ， 即 列表 的 长 度 与 矩阵 中 的 条 目 数量 成 比例 一 如 果 拓 
阵 是 稀疏 的 ， 这 种 方法 会 节省 相当 大 的 空间 ， 但 是 如 果 和 矩阵 变 得 稠密 ， 则 列表 会 变 得 很 大 ， 对 访问 矩阵 中 
元 素 的 访问 效率 会 很 低 。 经 验 表明 访问 矩阵 是 十 分 稀疏 的 ， 所 以 列表 实现 在 时 间 和 空间 上 都 有 效 。 访 问 控 
制 列 表 和 权能 列表 是 在 访问 矩阵 的 实现 上 做 的 进一步 优化 。 

访问 控制 列表 

实现 访问 矩阵 的 一 种 方法 是 将 矩阵 分 成 一 组 列 向 量 : 列 X; 向 量 表 示 了 不 同 主体 对 对 象 X 所 有 的 权限 
Æ ( 见 图 14-15)。 当 S; 试图 访问 对 象 时 ， 对 象 X 的 授权 机 制 很 容易 地 搜索 列表 。X; 的 列 向 量 称 之 为 X; 
的 访问 控制 列表 〈ACL)。 当 然 ， 像 下 面 的 访问 矩阵 ，ACL 列 向 量 可 能 是 稀疏 的 ， 所 以 一 个 时 间 和 空间 都 
有 效 的 实现 将 使 用 稀 朴 抢 阵 技术 的 一 个 变种 。 在 这 种 情况 下 ， 马 的 ACL BIA (S, lal) 的 结 点 列表 ， 
所 以 对 每 个 对 象 S, REN X 有 访问 权 ， 则 在 列表 中 有 一 个 特定 访问 类 型 的 结 点 。 





资源 描述 表 
资源 描述 表 





图 14-15 ”从 访问 矩阵 导出 的 访问 控制 列表 
注 : 访问 控制 列表 是 来 自 访问 矩阵 的 逻辑 列 ， 访 问 控制 列表 是 一 个 非 空 项 列表 ， 这 个 非 空 项 对 应 于 对 象 X 的 
列 。ACL 作为 对 应 于 对 象 的 资源 描述 表 的 一 部 分 。 


访问 控制 列表 在 许多 年 前 就 已 经 以 更 通用 的 形式 使 用 了 ， 在 这 种 形式 中 ， 资 源 管 理 器 为 每 个 资源 采用 
了 一 个 ACL。 在 大 多 数 的 应 用 中 ， 当 主体 对 象 打开 (或 分 配 ) 资源 时 ， 对 主体 进行 授权 ， 而 不 是 在 每 次 访 
问 上 都 进行 授权 。 如 果 主 体 和 它 的 访问 类 型 不 在 ACL 中 ， 分 配 或 打开 资源 操作 将 失败 。UNIX 文件 保护 机 
制 是 ACL 的 一 个 应 用 ， 尽 管 它 是 作为 一 个 特别 的 授权 机 制 ( 而 不 是 ACL 的 一 个 简单 实例 ) 来 设计 的 。 

在 Windows NT/2000 内 核 的 最 低层 次 ， 通 过 包括 有 一 个 完全 的 ACL 机 制 来 支持 安全 操作 [Solomon 
and Russinovich，1998]。 内 核 的 主要 部 分 根据 用 户 空间 的 组 件 说 明 的 保护 策略 ， 检 查 每 个 针对 对 象 的 访 
间 。 只 要 任 一 个 线程 进行 一 个 访问 内 核对 象 的 系统 调用 ， 处 理 该 访问 的 内 核 部 分 就 会 传递 一 个 访问 企图 的 
描述 给 认证 机 制 。 对 象 中 包含 有 标识 对 象 所 有 者 的 安全 描述 符 ， 并 且 有 一 个 许可 对 对 象 访问 的 进程 ACL 
认证 机 制 确定 线程 的 身份 和 访问 类 型 ， 然 后 验证 是 否 允许 线程 对 对 象 进程 访问 (根据 ACL 中 的 信息 )。 

权能 

ACL 取 自 访问 矩阵 中 的 列 ， 我 们 也 可 以 使 用 访问 矩阵 的 行 ( 见 图 14-16) 来 进行 访问 控制 。 访 问 和 矩阵 的 
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每 个 扁平 的 行 与 主体 相关 联 ， 所 以 它们 是 作为 列表 集合 存储 在 进程 描述 表 中 的 。 对 于 进程 中 的 线程 操作 ， 
每 个 保护 域 都 有 一 个 这 样 的 列表 。 当 主体 初始 化 访问 时 ， 授 权 机 制 会 检查 进程 描述 表 中 的 相应 列表 ， 看 主 
体 是 否 有 权限 一 一 称 为 权能 一 一 来 访问 指定 的 对 象 。 如 果 主 体 在 它 的 列表 中 没有 相应 对 象 的 权能 ， 那 么 它 
可 能 甚至 都 不 能 知道 对 象 的 地 址 。 因 此 ， 访 问 权限 被 分 配给 一 个 主体 ， 就 像 看 演出 的 人 场 券 一 样 。 当 访问 
矩阵 以 这 种 方式 存储 时 ， 称 之 为 权能 列表 (capability list). 





图 14-16 ”从 访问 矩阵 导出 的 权能 列表 
TE: 权能 列表 是 访问 矩阵 中 的 逻辑 行 。 权 能 列表 是 主体 S 中 的 非 空 项 的 集合 。 权 能 是 进程 描述 表 的 一 部 分 。 


权能 是 系统 中 对 一 个 对 象 的 访问 权限 的 唯一 的 、 全 局 的 名 字 。 因 而 权能 可 能 是 一 个 Kerberos HEB, th 
如 同 “对 磁盘 直上 的 扇 区 ; 的 读 访问 ”和 “对 进程 ; 的 地 址 空间 中 虚拟 地 址 ; 的 写 操作 ”。 当 代 操 作 系统 使 
用 权能 来 实现 保护 机 制 ， 并 且 跨 越 主体 之 间 的 地 址 空间 。 
通过 将 权能 当 作 访 问 权限 的 容器 和 对 象 的 引用 来 看 待 ， 保 护 机 制 可 以 设计 得 更 有 效 。 在 这 种 情况 下 ， 权 能 
服务 于 两 个 目的 。 首 先 ， 它 提供 了 在 一 个 很 大 的 地 址 空间 中 资源 的 地 址 ; 其 次 ， 拥 有 权能 表示 对 对 象 进行 访 问 
的 主体 的 认证 。 后 面 一 点 是 基于 权能 的 系统 中 的 关键 点 〈 回 想 一 下 Kerberos 的 例子 )， 即 当 一 个 主体 获得 了 一 个 
权能 时 ， 认 证 就 已 经 发 生 了 。 所 以 一 旦 权能 已 经 发 布 ， 在 运行 时 刻 监控 程序 和 访问 矩阵 就 没有 必要 对 每 次 访问 
都 进行 检查 了 。 拥 有 权能 表示 认证 和 授权 已 经 发 生 了 ， 也 意味 着 权能 必须 被 保护 并 且 不 能 被 任意 地 分 发 或 拷贝 。 
假设 在 这 种 一 般 模型 中 ， 有 一 些 保护 机 制 必须 实现 的 属性 : 
权能 所 具有 的 值 必须 要 从 一 个 大 的 名 字 空 间 中 得 到 。 这 是 因为 在 一 个 使 用 权能 的 系统 中 ， 为 了 表示 
所 有 主体 对 所 有 对 象 的 所 有 可 能 访问 ， 需 要 很 多 权能 的 实例 。 
里 权能 必须 唯一 一 并 且 一 旦 被 分 配 就 不 能 重新 分 配 。 这 样 就 防止 了 从 一 个 主体 最 初 对 一 个 对 象 访问 时 所 
使 用 的 权能 中 “回收 ”权能 来 重复 使 用 。 
前 权能 需要 能 区 别 于 伪造 的 名 字 。 例 如 ， 系 统 不 能 拒绝 带 有 权能 的 普通 整数 或 指针 。 
权能 必须 作为 安全 、 可 信 的 实体 来 实现 。 有 两 种 基本 的 方法 来 实现 权能 ， 要 么 权能 全 部 在 操作 系统 的 
地 址 空间 中 实现 ， 或 者 可 能 结合 有 专门 支持 权能 的 硬件 。 作 为 一 种 可 行 的 方法 ， 有 时 权能 通过 提供 一 个 很 
大 的 地 址 空间 ， 并 且 然 后 随机 地 从 中 发 布 权能 来 实现 。 然 而 ， 这 种 方法 并 不 保证 绝对 的 保护 ， 权 能 并 不 保 
证 是 唯一 的 ， 尽 管 唯一 的 概率 很 高 。 
在 操作 系统 中 ， 权 能 可 以 作为 一 个 有 类 型 的 标量 值 来 表示 。 它 在 概念 上 是 一 个 如 下 形式 的 记录 : 
struct capability | 
type tag; 
long addr; 
} 
如 果 c 是 一 个 权能 ， 那 么 它 的 标识 符 域 c.tag 被 设置 为 capability 值 ， 然 后 地 址 域 c.addr 是 一 个 权能 可 访 
问 的 全 局 地 址 。 如 果 一 个 主体 有 访问 c. addr 所 代表 资源 的 相应 访问 类 型 的 权能 ， 它 才 可 以 访问 该 对 象 。 如 果 系 
统 包 含 对 象 监控 程序 ， 那 么 为 了 保证 访问 的 有 效 性 ， 它 只 需要 验证 c. tag 中 所 设置 的 capability 值 即 可 。 
每 个 主体 都 能 获得 并 使 用 权能 ， 但 任何 一 个 主体 都 不 允许 生成 权能 。 如 果 一 个 主体 的 权能 一 直 在 操作 
系统 的 空间 中 维护 ， 那 么 若 没 有 操作 系统 的 参与 ， 该 主体 就 不 能 生成 一 种 类 似 权 能 的 数据 结构 。 然 而 ， 主 
体能 够 使 用 它 的 权能 访问 对 象 而 无 需 操 作 系统 的 特别 处 理 。 在 操作 系统 单独 管理 权能 的 情形 中 ， 数 据 结构 
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中 的 tag 域 可 以 去 除 ， 因 为 类 型 可 以 通过 权能 的 使 用 来 暗示 。 例 如 ， 在 一 个 段 式 虚拟 存储 系统 中 ， 所 有 的 
权能 都 存储 在 一 个 主体 的 权能 段 中 。 

可 以 通过 将 tag 域 与 每 个 存储 器 单元 相关 联 而 由 硬件 来 实现 标签 。 例 如 ， 早 期 的 Burroughs 计算 机 体系 
结构 中 使 用 硬件 实现 权能 。 字 中 的 tag 域 可 以 通过 核心 态 指令 设置 为 capability 或 other, tag 域 只 能 在 对 
象 的 保护 监控 程序 中 通过 核心 态 指令 来 读 取 。 

Mach 操作 系统 中 提供 了 内 核 级 的 权能 。Mach 是 Rochester Intelligent Gateway (RIG) 和 Accent 操作 系 
统 的 后 续 产 品 ， 上 述 这 三 种 系统 都 以 不 同 的 方式 来 使 用 权能 。 在 IPC 机 制 中 的 权能 使 用 ， 是 很 多 当代 操作 
系统 中 如 何 使 用 权能 的 一 个 好 的 说 明 [Accetta, etal., 1986]. 

Mach 中 的 IPC 是 基于 消息 和 端口 的 。 消 息 是 一 种 数据 结构 ， 端 口 是 一 种 在 内 核 中 实现 并 从 其 他 线程 
中 接收 消息 的 通信 和 通道， 每 个 端口 接收 一 种 特定 类 型 的 消息 。 如 果 一 个 线程 希望 挂 起 另 一 个 线程 ， 它 就 发 
送 一 个 挂 起 消息 到 目标 线程 的 端口 。 因 而 ， 如 果 一 个 线程 知道 另 一 个 线程 的 端口 地 址 和 类 型 ， 那 么 它 就 有 
了 控制 该 线程 的 权能 。 

端口 是 受 保 护 的 内 核资 源 ， 并 且 必 须 在 使 用 之 前 被 请 求 和 分 配 。 如 果 一 个 线程 知道 了 一 个 端口 ， 那 么 
它 就 有 了 发 送 消息 到 该 端口 的 权力 ， 并 且 接收 者 会 处 理 所 有 的 消息 。 在 一 个 端口 被 使 用 之 前 必须 由 操作 系 
统 来 进行 分 配 ， 端 口 等 价 于 权能 。 如 果 一 个 线程 有 了 该 权能 ， 它 就 能 够 发 送 消息 到 端口 ， 否 则 就 不 能 发 送 
消息 。19.4 节 中 详细 说 明了 这 个 例子 。 


14.4 密码 技术 


密码 技术 就 是 将 信息 编码 成 一 种 意义 模糊 的 形式 ， 再 利用 解码 操作 重新 构建 原来 的 信息 。 例 如 ， 如 果 
你 想 要 加 密 如 下 信息 (标点 符号 和 大 写 忽略 了 ): 


the quick sly fox jumped over the lazy brown dog 


那么 ,你 可 以 构建 一 个 表 ， 将 一 个 字符 映射 成 男 一 个 字符 。 例 如 ， 简 单 地 对 每 个 字符 加 2 ( 模 27) 并 将 间 
隔 符 作为 字母 表 中 的 第 一 个 字符 ， 则 加 密 信息 如 下 : 


vigbswkembun bhqzblworgffqxgtbvjgbnca bdtqynpbfqi 


现在 你 可 以 将 加 密 的 信息 发 送 给 另 一 个 人 ， 当 信息 在 传输 时 ， 即 使 其 他 人 得 到 了 消息 的 拷贝 ， 其 字符 序 
列表 现 不 出 任何 意义 。 

在 消息 载波 不 可 信 的 情况 下 ， 加 密 是 发 送 秘密 信息 的 一 种 非常 有 效 的 技术 。 在 以 前 的 年 代 ， 将 军 常常 
将 信息 加 密 后 送 给 他 们 的 部 属 ， 这 样 即使 报信 者 被 敌人 抓 住 了 ， 敌 人 知道 消息 的 可 能 性 会 减少 。 在 二 战 其 
间 ， 作 战 双方 都 使 用 电波 来 广播 消息 。 加 密 的 基本 原理 就 是 对 信息 进行 编码 。 这 种 简单 的 加 密 方法 的 破解 
现在 变 得 很 容易 了 ， 即 使 一 个 业余 人 侵 者 也 不 用 花费 什么 努力 就 可 以 破解 它 。 由 于 历史 的 原因 ， 人 们 开始 
寻找 一 些 很 难 解密 的 加 密 算法 ， 现 在 ， 加 密 广 泛 地 用 作 许 多 保护 机 制 的 基础 ， 特 别 是 保护 Intenet 上 传递 
的 信息 。 本 节 描 述 了 当代 使 用 的 加 密 技术 。 


14.4.1 概述 


当 正 文 暴露 在 一 个 没有 保护 的 媒体 中 时 ， 可 采用 密码 技术 将 明文 (clear text 或 plain text ) 转换 成 密 
X (ciphered text) 来 保护 正文 。 可 如 下 定义 一 个 加 密 函 数 encrypt () 和 一 个 解密 函数 decrypt () (其 中 
decrypt () 是 encrypt () 功能 的 反 转 ): 


decrypt (key’,encrypt (key, plaintext)) = plaintext 


其 中 encrypt 使 用 一 个 密 钥 key 来 将 明文 编码 成 密 文 ， 而 decrypt 使 用 另 一 个 不 同 的 密 钥 key' 将 密 文 
转换 回 明文 。 图 14-17 解释 并 引进 了 概念 来 反映 文本 的 不 同 版 本 。 即 M 是 明文 ， K, 是 加 密 密 钥 ，E 是 加 
TRR, Ki 是 解密 密 钥 ，D 是 解密 函数 。 例 如 ， 当 我 们 写 EK。，M) tt, 我们 指 的 是 密 文 ， 如 果 C 是 密 
X, MD (Ky, C) 是 明文 。 

有 两 种 策略 来 构造 加 密 和 解密 机 制 。 一 种 是 设计 建立 秘密 的 encrypt O 和 decrypt O 实现 ， 因 而 实现 
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图 14-17 基本 的 加 密 模 型 
注 : 加 密 技 术 假定 系统 中 有 加 密 和 解密 机 制 ， 明 文 可 以 使 用 加 密 密 钥 K。 进行 加 密 ， 然 后 使 用 解密 密 钥 Ka 进行 
解密 。 人 和 人 侵 者 可 以 拷贝 加 密 的 明文 ， 然 后 试图 使 用 其 他 信息 进行 解密 。 


也 成 为 安全 机 制 的 一 部 分 ; 另 一 种 是 设计 建立 公开 的 机 制 ， 但 密 钥 是 秘密 的 并 且 难 以 伪造 。 在 第 一 种 方法 
中 ，encrypt () 和 decrypt () 是 复杂 的 ， 因 而 很 难 猜 出 它们 是 如 何 进行 转换 的 ， 然 而 ， 如 果 入 侵 者 发 现 
丁 它们 的 算法 ， 则 这 种 加 密 方式 就 无 效 了 。 二 战 中 ， 一 方 使 用 的 加 密 机 制 就 是 基于 这 种 方法 ， 所 以 好 莱 坞 
制作 了 很 多 有 关 获 取 编 码 设备 的 高 冒险 和 密谋 的 电影 。 , 

而 在 第 二 种 方法 中 ， 密 钥 是 复杂 的 ， 因 而 很 难 猜 出 密 钥 是 什么 ， 所 以 没有 必要 为 机 制 的 设计 保持 秘密 
(即使 设计 被 人 侵 者 发 现 ， 也 没 必要 担心 泄密 )。 当 代 的 加 密实 现 使 用 后 一 种 方法 ， 也 就 是 说 ， 机 制 的 操作 
是 公开 的 ， 密 钥 是 私有 的 。 

在 图 14-17 中 ， 入 侵 者 发 现 了 密 文 ， 因 为 假定 入 侵 者 知道 解密 机 制 如 何 工 作 ， 唯 一 的 挑战 就 是 猜 解 密 
密 钥 。 人 侵 者 可 以 使 用 任何 外 部 的 信息 一 一 称 为 其 他 信息 -一 来 进行 解密 。 设 计 者 的 挑战 就 是 开发 不 同 的 
组 件 ， 使 得 人 侵 者 很 难 通 过 计算 来 猜 出 解密 密 钥 。 

14.4.2 私有 密 钥 加 密 技术 

私有 密 钥 加 密 技术 对 应 于 人 们 对 加 密 工作 的 直观 认识 ，K。 和 Ks 对 加 密会 话 中 的 通信 者 都 是 私有 的 。 
它们 常常 是 相同 的 值 (K。= Ks)。 这 与 下 节 找 述 的 公有 密 钥 加 密 是 相反 的 。 如 果 交 换 信息 的 双方 彼此 信任 ， 
则 可 以 使 用 私有 密 钥 。 在 私有 密 钥 加 密 方 法 中 ， 人 入侵 者 的 攻击 点 就 是 试图 窃取 或 猜测 私有 密 钥 。 在 描述 了 
对 称 加 密 后 ， 我 们 将 讨论 最 常用 的 私有 密 钥 加 密 方法 一 一 数据 加 密 标准 (DES) 方法 。 

对 称 加 密 

私有 密 钥 加 密 常 使 用 对 称 加 密 技 术 ， 加 、 解 密 的 密 钥 是 相同 的 〈K。 = Kg)。 这 暗示 着 加 密 函 数 和 解密 
函数 是 一 样 的 。 如 果 对 信息 的 加 、 解 密 都 在 一 个 可 信 的 子 系统 中 完成 ， 那 么 这 种 形式 的 加 密 是 有 用 的 。 例 
如 ,一 个 操作 系统 的 用 户 认证 系统 可 能 使 用 这 种 技术 来 保存 口令 。 当 用 户 声明 一 个 口令 时 ， 操 作 系统 就 使 
用 它 的 私有 密 钥 加 密 数 据 并 且 将 加 密 数 据 存储 到 一 个 口令 对 象 中 ; 在 认证 时 刻 ， 操 作 系统 使 用 它 的 密 钥 解 
密 口 令 对 象 的 条 目 ， 并 与 用 户 提供 的 口令 进行 对 比 。UNIX 中 就 采取 这 种 方法 来 保护 口令 。 

下 面 是 实现 对 称 加 密 的 一 个 简单 例子 ， 想 像 一 下 我 们 想 要 加 密 ASCII 字符 串 “abra”， 这 个 字符 串 的 
十 六 进 制 表示 是 : 


0x61627261 


如 果 我 们 用 二 进 制 来 表示 ， 则 为 : 


01100001011000100111001001100001 


现在 假定 我 们 选择 一 个 和 明文 有 相同 长 度 的 随机 位 串 〈 在 这 个 例子 中 为 32 位 ) 来 作为 加 密 密 钥 ; 
10011101010010001111010101011100 

下 一 步 ， 将 明文 与 密 钥 进行 位 异 或 操作 : 

11111100001010101000011100111101 


它 用 十 六 进 制 表示 为 : 
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Oxfc2a873d 


这 就 是 密 文 ， 这 个 异 或 操作 就 是 对 称 加 密 函 数 的 例子 。 这 意味 着 我 们 使 用 相同 的 密 钥 加 密 密 文 ， 可 以 
再 次 得 到 明文 。 尽 管 这 个 密 钥 可 能 很 难 猜 〈 对 上 述 简单 的 加 密 算 法 ， 密 钥 并 不 是 很 难 猜 ) ， 但 是 这 个 例子 
解释 了 如 何 将 加 密 算法 公开 。 

数据 加 密 标准 (DES) 

私有 密 钥 加 密 的 另 一 个 关键 性 的 因素 是 如 何 选择 将 明文 转换 成 密 文 的 加 密 算 法 。 今 天 ， 数 据 加 密 标 
准 , 或 DES [FIPS，1993]， 是 使 用 私有 密 钥 对 明文 加 密 的 最 流行 的 方法 。DES 被 精心 设计 使 得 确定 密 钥 
很 困难 。 通 过 了 解 DES 的 工作 方式 ， 你 会 对 所 有 的 私有 密 钥 加 密 机 制 有 一 个 更 好 的 认识 。 

DES 使 用 两 种 技术 来 进行 加 密 ， 排 列 和 

置换 。 在 排列 方法 中 ， 明 文中 的 位 要 进行 重 排列 并 
散播 。 这 使 得 很 难 通过 加 密 后 的 密 文 来 推断 出 明 
文 。 例 如 ， 在 上 面 的 ASCH 例子 中 ， 小 写字 母 被 在 
0x61 和 0x7a 间 的 十 六 进 制 数字 来 表示 。 在 ASCII 
字 节 中 ， 三 个 最 重要 的 位 一 直 是 011 (对 小 写 的 
ASCH 字符 来 说 )。 通 过 重 排列 这 些 位 ， 这 样 的 类 
型 被 隐藏 了 。 置 换 是 用 另 一 串 位 来 置换 明文 中 的 位 
串 ， 注 意 它 们 的 位 长 度 并 不 必要 是 一 样 的 (最 好 是 
不 同 的 长 度 )。 置 换 更 进一步 模糊 了 传输 的 信息 。 

DES 的 思想 就 是 将 明文 分 成 64 位 块 的 集合 ， 然 
后 对 每 个 块 应 用 加 密 算法 。 加 密 算法 首先 应 用 位 排列 
操作 (在 图 14-18 中 进行 了 概括 )， 然 后 执行 一 系列 复 
杂 的 置换 。 最 后 排列 (与 第 一 个 排列 相反 ) 被 执行 来 
产生 密 文 。 

原来 的 DES 加 密 和 解密 依赖 于 一 个 单个 的 64 
位 模式 ， 它 包含 了 一 个 56 位 的 密 铀 ， 和 一 个 8 位 
的 奇偶 域 。 奇 偶 校 验 域 用 来 确保 56 位 的 密 钥 是 一 
个 正确 的 密 钥 一 一 奇偶 位 也 被 用 在 密 铜 中。 

DES 算 法 的 核心 是 置换 算法 ， 排 序 的 64 位 被 
分 成 低 32 位 和 高 32 位 。 算 法 然后 在 这 两 部 分 上 执 
行 迭 代 操 作 ， 这 是 图 14-18 的 主要 部 分 。 在 图 中 ， 








灰 线 指出 了 算法 迭代 的 位 置 。 在 每 次 迭代 中 ， 对 第 图 14-18 DES 算 法 
j 次 迭代 ， 有 一 个 与 迭代 相关 的 48 位 密 钥 Kjo K; #: DES 算法 使 用 图 中 描述 的 公共 方法 来 加 密 信息 。 
可 以 作为 定义 的 DES 函数 ()， 并 使 用 这 个 DES 负 制 的 安全 取决 于 确定 密 角 的 复杂 性 。 在 不 同 
密 钥 和 和 迭代 次 数 来 计算 。 从 该 图 中 我 们 知道 ， 的 DES 版 本 中 ， 密 钥 范 围 什 为 64 一 256 位 。 

L; = R; -1 


R; =L® f (R;-1; K;) 

其 中 ， 名 是 一 个 异 或 操作 ， 函 数 f 是 一 个 公开 的 置换 函数 (FIPS, 1993; Singhal and Shivaratri, 1994], ## 
密 机 制 反 向 地 运行 算法 来 恢复 明文 。 

在 20 世纪 70 年 代 开始 设计 DES 时 ， 这 种 方法 被 声称 是 合理 的 (尽管 加 密 在 时 间 上 的 开销 很 大 )。 到 
1998 年 ， 随 着 计算 机 计算 速度 的 提高 ，56 位 的 密 钥 不 再 被 认为 是 完全 安全 的 。 到 1999 年 , 已 经 设计 了 专 
用 的 计算 机 ， 它 可 以 在 几 个 小 时 内 猜 出 56 位 的 DES 密 钥 。 结 果 现 在 出 现 了 128 位 、192 位 、256 位 的 DES 密 
钥 变 种 ， 专 家 称 在 几 年 之 内 ， 这 些 变 种 对 现 有 的 计算 速度 来 说 还 是 安全 的 。 

最 后 ,有 一 个 类 似 于 DES 的 私有 密 钥 加 密 算法 ( 称 为 SKIPJACK) , 它 是 在 一 种 称 为 Clipper 的 芯片 上 实现 的 , 它 
多 用 于 政治 目的 。 争 论 的 主题 是 每 个 芯片 的 密 钥 管理 ,提出 的 建议 是 每 个 Clipper 芯片 的 密 钥 由 两 个 政府 部 门 保存 
在 契约 中 。 在 紧急 情况 下 ,可 以 从 一 个 政府 部 门 获得 密 钥 ,并 用 来 解密 以 前 在 特定 芯片 上 加 密 的 信息 。 
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14.4.3 ”公开 密 钥 加 密 技术 


公开 密 钥 密码 算法 也 是 一 种 前 沿 的 保护 技术 。 这 种 算法 提供 了 一 种 完全 不 同 的 加 密 技 术 ， 它 可 以 支持 
通信 者 之 间 不 同类 型 的 交互 。 它 的 思想 是 有 一 个 密 钥 是 秘密 的 〈 私 有 的 )， 另 一 个 密 钥 是 公开 的 ， 公 开 的 
密 钥 可 被 用 于 想 与 控制 秘密 密 钥 一 方 通信 的 任何 人 。 我 们 称 秘密 密 钥 为 Ks,， 公 有 密 钥 为 Kb。 现 在 如 果 用 
户 U， 发 布 了 加 密 机 制 和 Ke， 想 要 发 送 加 密 信息 给 U 的 另 一 方 V， 使 用 加 密 机 制 和 Ke 来 进行 加 密 一 即 V 
RSME (Kp, M) 给 U。 因 为 密 文 仅 可 能 被 U 解密 (使 用 K.)， 密 文 暴露 给 入 侵 者 时 ， 密 文 就 受到 了 
保护 (除非 人 侵 者 可 以 猜 出 K)。 

注意 可 以 使 用 公有 密 钥 加 密 来 实现 数字 签名 ， 我们 可 以 使 用 数字 签名 来 进行 授权 。 因 为 E (K D (Ks 
M)) =M， 加 密 算 法 可 以 利用 解密 机 制 来 将 密 文 转化 为 明文 。 加 密 函 数 D (K, ARERR E (Ko，…) 
都 进行 字符 串 的 转化 。D (KR，…) RAEE (Kp --) 函数 的 反 转 。 这 种 方法 可 以 工作 的 原因 是 控制 用 户 
U 连接 了 一 个 编码 的 签名 S=D (K, name) 到 文件 中 〈 称 为 数字 签名 )。 如 果 接 收 者 通过 应 用 下 (Kp S) 可 
以 恢复 名 字 ， 则 文档 仅 可 能 来 自 U。 公 有 密 钥 加 密 技 术 可 以 用 来 建立 软件 证 书 来 对 软件 模块 进行 认证 。 

这 个 领域 内 最 根本 的 工作 是 RSA 加 密 算法 [Rivest，et al.，1978]。 几 乎 所 有 的 现代 加 密 算 法 都 从 
RSA 算法 推演 而 来 ， 或 者 是 类 似 于 RSA 算法 。 类 似 于 RSA 的 算法 一 般 来 说 取决 于 单 向 函数 的 使 用 。 单 向 
函数 了 的 重要 特征 是 容易 计算 (y= f(x) 是 容易 计算 的 )， 但 是 反 过 来 就 很 难 确定 〈 即 当知 道 y 值 时 ， 
很 难 计算 x= 广 : (y))。 这 样 的 函数 用 来 计算 一 次 性 密码 ,但 是 在 RSA 方法 中 ， 它 用 来 作为 加 密 工 具 的 
基础 。 密 文 为 /(K,， 明 文 )， 解 密 通过 计算 广 : (K, f (Ko WX) 来 完成 。 

RSA 算法 的 理论 依据 是 单 向 函数 有 效 地 使 用 了 两 个 素数 的 乘积 。 为 了 确定 反 向 函数 ， 人 侵 者 有 必要 计 
算出 乘积 的 两 个 因子 〈 因 为 它们 是 素数 ， 仅 有 两 个 数 适 合 这 种 情况 ) [Maekawa, etal., ，1987]。 找 出 两 个 
素数 是 一 项 非常 艰难 的 计算 任务 ， 理 论 家 已 经 研究 了 很 多 年 。RSA 算法 利用 了 单 向 函数 的 计算 复杂 性 这 个 
事实 一 一 一 个 典型 的 理论 到 实际 的 应 用 问题 。 

大 多 数 的 当代 公开 密 钥 加 密 系 统 使 用 了 RSA 方法 的 一 些 特性 ， 这 都 取决 于 单 向 函数 。PGP 机 制 是 对 
每 个 人 都 可 用 的 公开 机 制 ， 下 面 的 示例 提供 了 对 PGP 的 一 种 简短 的 解释 。 


Aid 


s ———— 
示例 : PGP 

PGP (pretty good privacy) 是 一 种 流行 的 公开 密 钥 密码 系统 ， 它 是 由 Zi [1994] 开发 的 。 在 PGP 
中 ,公开 密 钥 中 包括 所 有 者 的 电子 邮件 地 址 、 密 钥 创建 的 时 间 以 及 密 钥 字 符 。 私 有 密 钥 包 括 身份 证 号 和 创建 
时 间 ， 同 时 带 有 密 钥 字符 和 一 个 口令 。 一 个 密 钥 被 保存 在 一 个 密 钥 证 书 中 ， 证 书 中 包括 所 有 者 的 ID、 密 钥 对 
被 创建 的 时 间 ， 以 及 定义 密 钥 的 信息 。 公 开 密 钥 证 书包 含有 公开 密 钥 的 信息 ， 私 有 密 钥 证 书 中 包含 有 私有 密 
钥 的 信息 。 一 个 用 户 可 以 在 公开 和 私有 密 钥 环 中 ， 保 持 有 几 个 这 样 的 公开 密 钥 和 私有 密 钥 的 证 书 。 

消息 摘要 (message digest ) 是 对 一 个 消息 进行 128 位 的 “ 强 单 向 散 列 加 密 ”， 使 之 在 一 个 不 安全 的 网 
络 中 进行 传输 [Zimmenrman，1994]。 通 常情 况 下 ,伪造 一 个 消息 摘要 是 不 可 能 的 。 一 旦 一 个 消息 摘要 被 
计算 出 来 ， 通 过 使 用 私有 密 钥 来 加 密 消 息 摘要 从 而 得 到 消息 的 签名 。 通 过 产生 一 个 标题 包含 一 个 内 部 64 
位 的 密 钥 ID. 一 个 签名 以 及 签名 被 创建 时 的 时 间 戳 ) 来 对 一 份 秘密 文档 进行 签署 。 如 果 接 收 者 在 认证 消 
息 ， 那 么 它 使 用 密 钥 ID 获取 发 送 者 的 公开 密 钥 〈 从 接收 者 自己 的 公开 密 钥 环 上 ); 如 果 接 收 者 是 在 解密 消 
息 ， 那 么 它 使 用 密 钥 ID 从 自己 的 私有 密 钥 环 可 获得 私有 密 钥 。 

PGP 被 广泛 应 用 于 在 网 络 上 发 布 信息 ， 软 件 这 样 被 发 布 不 需要 开销 ， 并 且 不 需要 像 Kerberos 那样 要 有 
一 个 认证 服务 器 。 








14.4.4 Internet 信息 发 送 


在 Internet 上 传输 信息 时 对 信息 进行 加 密 现在 已 变 得 十 分 流行 了 。 有 些 web 主机 包含 了 私有 信息 ， 或 
是 因为 它 包含 蘑 个 群体 或 公司 的 机 密 信息 ， 或 者 是 因为 它 仅 能 被 付费 的 用 户 观 看 。 例 如 ， 和 想像 一 下 你 建立 
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了 一 个 发 送 数字 视频 电影 的 web 主机 ， 每 次 你 观看 电影 时 ， 需 要 为 生产 电影 的 工作 室 付 费 ， 如 果 你 的 站 点 
打算 获 利 ， 你 也 需要 得 到 收入 。 如 果 人 侵 者 可 以 获得 电影 的 明文 ， 则 它 可 以 在 Internet 上 传播 ， 用 户 无 需 
付费 就 可 以 观看 。 这 样 ， 工 作 室 就 得 不 到 收入 ,你 也 不 能 获 利 。 当 前 ， 在 解决 Internet 信息 发 送 及 收集 作 
为 电子 商务 交易 的 费用 时 ， 加 密 是 最 广泛 使 用 的 技术 。 

电子 商务 涉及 到 用 户 如 何 通过 Intenet 为 卖主 付款 ， 在 大 多 数 情况 下 ， 用 户 通过 提供 给 卖主 信用 卡号 
码 来 授权 对 卖主 的 付款 。 明 显 地 ， 用 户 希望 信用 卡 授权 交易 是 安全 的 ， 这 常常 使 用 加 密 技术 来 完成 。 

商业 上 , .这 种 需求 对 下 述 技术 领域 有 极 大 的 利益 推动 力 ， 称 为 数字 权限 管理 (digital rights manage- 
ment，DRM)。 在 DRM 方法 中 ,信息 所 有 者 可 以 在 可 访问 的 Internet 服务 器 上 存储 信息 ， 并 指定 一 种 策略 
定义 用 户 如 何 访 问 信息 的 内 容 ， 然 后 用 适当 的 实现 策略 的 保护 机 制 配 置 系统 (OLA 14-19)。 





图 14-19 数字 权限 管理 系统 
注 : DRM 系统 是 通用 的 保护 系统 ， 它 允许 一 个 人 建立 信息 并 用 一 个 灵活 的 安全 策略 来 管理 信息 的 访问 权限 。 这 
幅 图 标识 了 使 用 DRM 系统 的 不 同 团体 。 


显而易见 ， 这 幅 图 表现 了 一 个 复杂 的 系统 。 在 DRM 系统 中 ， 有 几 个 重要 的 组 件 ， 包 含 了 系统 中 使 用 
的 加 密 方法 。 当 代 加 密 系 统 对 加 密 元 素 采用 了 私有 和 公开 密 钥 加 密 两 种 方法 。 这 个 问题 的 商业 应 用 使 得 
DRM 成 为 一 个 非常 复杂 的 问题 ， 它 涉及 到 加 密 技术 、 数 据 建 模 语言 、 策 略 描述 语言 及 实现 组 件 的 整个 系 
统 。 当 DRM 处 于 早期 时 ， 它 是 保护 和 安全 的 一 个 驱动 性 的 应 用 领域 。 


14.5 小 结 


保护 机 制 在 操作 系统 中 用 来 支持 各 种 安全 策略 。 安 全 系统 的 目标 是 对 主体 进行 认证 并 且 授权 它们 访问 
某 个 对 象 。 如 果 主 体 是 一 个 用 户 ， 机 制 会 验证 用 户 是 否 为 合法 用 户 并 通过 系统 策略 预先 确定 的 权限 集 来 确 
定 他 的 权限 。 

授权 用 于 证 实 一 个 主体 ， 即 对 应 于 在 一 个 保护 域 中 执行 的 进程 ， 根 据 当 前 的 保护 状态 看 它 是 否 有 权限 
来 访问 一 个 对 象 。 理 想 的 保护 模型 要 求 根据 当前 的 保护 状态 来 认证 每 个 访问 操作 。 安 全 策略 必须 详细 说 明 
保护 状态 如 何 被 改变 ， 这 是 通过 详细 说 明 一 组 表示 策略 中 保护 状态 改变 的 规则 来 实现 的 。 

理想 模型 的 实现 要 以 能 够 建立 性 价 比 高 的 系统 作为 前 提 。 实 现 的 关键 部 件 是 主体 认证 模块 、 资 源 监 控 
程序 以 及 保护 状态 的 表示 (使 用 访问 矩阵 )。 保 护 系统 实现 中 的 创新 在 于 状态 和 资源 监控 程序 的 设计 。 

保护 域 是 硬件 核心 模式 能 力 的 扩展 。 环 模型 一 般 化 了 通过 模式 标志 建立 的 域 ， 使 得 操作 系统 可 能 支持 
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多 个 不 同 的 域 。 访 问 和 矩阵 可 以 作为 一 个 条 目 列表 而 实现 ， 条 目 中 一 行 保存 有 关 一 个 主体 的 权限 信息 ， 称 为 
一 个 权能 列表 。 它 也 可 以 作为 一 个 访问 控制 列表 来 实现 ， 一 个 列 条 目 包含 有 与 一 个 对 象 相关 的 权限 信息 。 

在 存储 媒体 不 能 总 是 保证 信息 安全 的 情形 中 ， 常 常会 用 到 密码 技术 。 随 着 因特网 使 用 的 增长 ， 密 码 技 
术 的 重要 性 也 在 增加 。 在 信息 没有 被 处 理 的 情况 下 也 要 进行 加 密 保护 ， 包 括 信息 在 文件 系统 中 ， 以 及 信息 
通过 网 络 从 一 个 计算 机 传输 到 另 一 个 计算 机 时 。 


14.6 


习题 


1. 分 析 下 面 的 每 个 任务 ， 看 看 它们 是 认证 任务 、 授 权 任务 、 还 是 加 密 任 务 ， 或 什么 都 不 是 ? 


2. 


a. 在 自动 出 纳 机 上 输入 你 的 PIN 号 

b. 允许 James Bond 进入 敌人 的 作战 室 
c. 建立 一 个 消息 摘要 

d. 在 信用 社 用 支票 兑换 现金 

下 面 是 伪造 的 “About me” 描 述 : 


George Walker Bush 43rd president of the United States (2001- ). Narrowly win- 
ning the electoral college vote over Vice President Al Gore in one of the closest 
and most controversial elections in American history, Bush became the first per- 
son since 1888 to become president despite losing the nationwide popular vote. 
Before assuming the presidency of the United... 

[Encyclopedia Britannica, 2003] 


下 面 的 哪 一 个 密码 可 从 “About Me” 中 猜 出 ? 


Tn 


a. Walker 

b. JebBrother 

c. [BeatAl 

d. 1600Penn-Ave. NW 


e. texas 


. 解释 一 下 为 什么 要 使 用 一 次 性 密码 。 

. 什么 是 单 向 函数 ? l 

. Java 小 应 用 程序 如 何 防止 从 客户 机 环境 中 拷贝 信息 并 返回 到 服务 器 的 ? 

. 假设 一 个 分 时 计算 机 提供 了 一 种 机 制 ， 其 中 一 个 文件 可 以 被 任何 用 户 读 取 ， 但 只 能 由 一 个 用 户 写 。 


非 正式 地 描述 一 个 用 于 在 该 计算 机 系统 中 管理 学 生 笔记 的 安全 策略 (限定 你 的 描述 在 半 页 A4 纸 以 
内 )。 学 生 应 该 能 够 读 取 他 们 的 级 别 但 不 能 改变 级 别 ; 学 籍 注册 人 员 必 须 能 够 改变 级 别 文 件 。 


. 描述 一 种 基于 用 户 的 指纹 来 进行 认证 的 机 制 一 一 硬件 和 软件 。 这 是 一 个 开放 性 的 问题 ， 你 可 以 基 


于 你 的 想像 来 进行 革新 设计 〈 可 以 受 一 些 电影 、 科 幻 小 说 的 影响 等 )， 使 用 这 种 机 制 来 实现 很 高 安 
全 级 的 装置 。 


. 动态 重 定位 硬件 通常 被 认为 是 一 种 基本 的 存储 保护 机 制 ， 那 么 在 重 定位 硬件 中 的 保护 状态 是 什么 ? 


操作 系统 如 何 保证 该 保护 状态 不 能 被 随意 地 改变 ? 


. 解释 一 下 使 用 Kerberos 机 制 认证 一 个 消息 时 从 所 声称 用 户 发 出 ， 客 户 和 服务 器 所 应 该 采取 的 确切 


步骤 (如 果 在 网 上 参考 有 关 Kerberos 的 信息 ， 你 可 能 会 找到 一 些 有 用 的 东西 )。 
给 定 图 14-11 的 访问 和 矩阵， 为 每 个 对 象 提供 一 个 访问 控制 列表 。 


11. 假定 保护 状态 如 图 14-11 所 示 ， 并 且 规 则 如 图 14-12 所 示 ， 回 答 下 列 问题 ， 


a. 解释 一 下 S3 如 何 能 够 引起 保护 状态 的 改变 ， 从 而 它 有 对 FF 的 写 访问 权限 。 
b. 详细 说 明 S; 能 够 获得 对 F, 的 读 许可 权限 的 两 种 不 同方 法 。 
c. 解释 一 下 S; 是 否 能 够 从 Si 获得 对 D1 的 查找 〔seek) 许可 权限 ， 为 什么 能 或 为 什么 不 能 ? 


12. 使 用 文本 编辑 器 读 取 UNIX 系统 中 的 口令 文件 /etc/passwd， 你 应 该 能 够 在 这 个 ASCII 文件 中 找到 


一 行 用 于 你 自己 的 登录 。 推 测 一 下 你 的 口令 是 如 何 保存 在 /etc/passwd 中 的 ， 什 么 用 户 是 /etc/ 
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13. 


14. 


15. 


16. 
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passwd 的 所 有 者 ? BA etc/passwd 的 写 许可 权限 吗 ? 

考虑 一 个 有 个 位 的 键 和 锁 策略 变种 来 描述 存储 保护 ， 其 中 一 个 进程 访问 存储 块 时 ， 对 存储 块 锁 

的 每 个 被 置 1 的 位 ， 进 程 键 中 的 相应 位 也 必须 被 置 1。 

a. 系统 中 有 多 少 个 唯一 的 锁 ? 

b. HA = 8, 那么 可 以 访问 锁 值 为 01100110 的 主 存 块 的 所 有 进程 键 的 特征 是 什么 ? 

c. 说 明 这 个 机 制 如 何 用 于 下 述 情 形 ， 允许 进程 B 保持 一 些 主 存 块 为 秘 有 ， 与 进程 A 共享 一 些 块 ， 
以 及 与 进程 C 共享 其 他 的 一 些 块 (其 中 A AC 不 共享 任 一 主 存 块 )。 

假设 一 个 UNIX 系统 已 经 设置 好 ， 因 而 每 个 学 生 和 教师 有 他 们 自己 的 ID， 并 且 他 们 所 有 人 都 在 一 

个 组 中 〈 没 有 其 他 的 用 户 )。 在 分 时 系统 下 ， 一 门 课程 所 使 用 的 文件 也 被 其 他 的 课程 使 用 。 

a. 学 生 对 包含 作业 答案 的 文件 应 该 有 什么 样 的 权限 许可 ? 

b. 教师 对 包含 课程 分 数 的 文件 应 该 有 什么 样 的 权限 许可 ? 

c. 应 该 把 什么 样 的 权限 分 配给 如 下 的 文件 (教师 所 有 的 ): 对 于 该 文件 教师 可 以 进行 读 写 操作 ， 
加 入 本 课程 中 的 学 生 可 以 执行 ， 并且 对 任意 其 他 的 学 生 是 不 可 访问 的 。 . 

d. 假设 教师 想 有 一 个 目录 ， 其 中 每 个 学 生 可 以 在 目录 中 写 人 他 的 一 个 答案 文件 ， 但 只 有 教师 才 
能 从 中 读 取 文件 ， 那 么 这 个 目录 应 该 有 什么 样 的 权限 许可 ? 

解释 一 下 UNIX 文件 保护 系统 如 何 允 许 进程 通过 名 为 getSpecial 和 putSpecial 的 特殊 命令 ， 来 读 

取 和 修改 一 个 系统 文件 。 . 

讨论 一 下 在 访问 矩阵 实现 中 ,访问 控 制 方 法 优 于 权能 列表 方法 的 情形 。 





第 15 章 网 络 


网 络 是 计算 机 和 通信 机 制 的 结合 。 在 计算 机 内 ， 网 络 功能 是 由 设备 、 系 统 软件 和 应 用 软件 相 结合 来 实 
现 的 。 网 络 设备 将 机 器 连接 到 与 其 他 机 器 共享 的 通信 子 网 上 ， 人 允许 所 有 机 器 上 的 进程 /线程 交换 信息 。 信 
息 共享 有 许多 方法 : 作为 文件 在 机 器 间 来 回 拷贝 、 作 为 OSIPC 机 制 处 理 的 消息 、 作 为 远程 过 程 调用 和 
远程 对 象 引用 的 参数 等 。 尽 管 网 络 20 多 年 来 已 经 变 成 计算 的 一 个 重要 部 分 ， 但 在 这 个 领域 内 仍然 有 极 大 
的 进步 。 

今天 ， 流 行 的 网 络 基于 ISO 开放 系统 互 连 体系 结构 ， 它 定义 了 一 种 方法 来 将 通信 功能 分 成 层次 模型 。 
网 络 设计 者 可 以 使 用 一 种 通用 的 体系 结构 来 组 织 网 络 中 的 功能 ， 即 使 物理 网 络 可 能 差别 很 大 。 通 用 体系 结 
构 的 一 个 重要 好 处 就 是 ， 它 可 以 互 连 不 同 的 网 络 使 得 它们 可 以 形成 一 个 更 大 的 网 络 ， 称 为 互联 网 或 因特网 
(internet), 

在 本 章 中 ， 我 们 讨论 如 何 从 传统 的 计算 机 通信 应 用 发 展 到 精心 制作 的 软件 做 支持 的 专门 化 网 络 。 在 描 
述 了 ISO 的 OSI 模型 以 后 ， 将 评述 一 下 网 络 硬 件 的 特征 ， 然后 集中 介绍 操作 系统 中 实现 的 网 络 功能 部 分 。 
最 后 ， 我 们 描述 了 用 户 空间 软件 如 何 利 用 操作 系统 网 络 服务 来 实现 分 布 式 计算 。 


15.1 从 计算 机 通信 到 网 络 


互 连 计算 机 的 数据 网 络 的 发 展 是 计算 机 发 展 史 上 的 一 个 里 程 碑 ， 这 个 革新 是 随 着 IEEE 802 (ISO/IEC 
8802) 以 太 网 和 令 牌 环 局 域 网 (LAN) 标准 的 引进 而 开始 的 。Xerox 设计 者 在 他 们 的 实验 室 里 开发 了 以 太 
网 的 几 个 实验 版 本 ， 同 时 ，IBM 研发 人 员 建 立 并 开始 部 署 了 令 牌 环 作为 他 们 产品 线 的 一 部 分 。 标 准 采纳 了 
这 两 种 方法 。 在 1980 年 之 前 ， 数 据 网 络 是 作为 昂贵 的 、 特 定 的 系统 而 存在 的 ， 它 们 仅 供 少 数 的 研究 机 构 
和 政府 部 门 使 用 。LAN 迅速 得 到 了 发 展 ， 因 为 应 用 程序 员 很 快 就 意识 到 他 们 有 了 一 个 操作 系统 抽象 ， 这 
可 以 使 他 们 将 多 台 计 算 机 互 连 协同 工作 来 解决 一 个 共同 的 问题 一 这 就 是 分 布 式 计算 (distributed compu- 
tation) 。 

大 约 在 过 去 的 十 年 里 ，LAN 技术 的 广泛 存在 和 World Wide Web 的 发 展 在 分 布 式 计算 领域 引发 了 一 场 
革新 : 人 们 已 经 知道 利用 个 人 计算 机 来 提高 他 们 的 生产 效率 (通过 字 处 理 、 电 子 表格 和 其 他 类 似 的 工具 )。 
现在 网 络 技术 可 以 使 他 们 将 家 用 计算 机 连接 到 网 络 上 ， 反 过 来 ， 这 使 得 他 们 可 以 使 用 World Wide Web 
(WWW) 协议 获取 来 自 世 界 各 地 不 同 资源 的 信息 (在 应 用 域 中 ， 指 的 是 内 容 )。WWW 鼓励 内 容 提供 商 建 
立 web 站 点 使 得 内 容 可 用 ; 同时 ， 电 子 商 务 也 开始 作为 商业 的 一 种 新 模型 出 现 。 几 平 是 突然 闻 ， 在 Inter- 
net 上 有 大 量 提 供 内 容 的 组 织 集合 ， 甚 至 有 大 量 的 人 开始 使 用 web 浏览 器 和 WWW 将 内 容 拷贝 到 自己 的 机 
器 上 。 
对 于 计算 机 技术 而 言 ， 这 是 一 个 令 人 惊奇 的 年 代 : 大 量 的 人 们 开始 熟悉 计算 机 和 Internet， 在 现 有 的 
技术 下 Internet 可 以 支持 完备 的 信息 分 布 和 先进 的 电子 商务 ， 这 带 来 了 极 大 的 商业 动力 。 下 一 个 十 年 ， 
你 会 看 到 操作 系统 和 网 络 的 发 展 可 以 用 来 解决 数 百 万 人 的 需要 。 本 书 的 随后 三 章 将 从 操作 系统 设计 者 的 角 
度 来 讨论 网 络 和 分 布 式 计算 。 本 章 描述 了 网 络 的 底层 信息 传输 技术 及 它 的 协议 。 第 16 章 着 重 于 介绍 LAN 
的 第 一 个 真正 大 量 使 用 的 业务 一 一 远程 文件 服务 。 第 17 章 描 述 了 分 布 式 计算 的 不 同 发 展 领域 ， 包 括 远程 
过 程 调用 和 分 布 式 存储 。 


15.1.1 交换 网 络 


当代 计算 机 网 络 是 从 以 前 的 电信 技术 发 展 起 来 的 。 一 个 串 行 端口 (参见 第 5 章 ) 能 够 传送 /接收 字 节 
到 /从 一 个 外 部 设备 中 ， 计 算 机 到 计算 机 的 通信 就 是 通过 连接 一 个 调制 解 调 器 (modem) 到 串口 ， 利 用 串 
O 技术 来 实现 的 (参见 图 15-1) 。 每 个 调制 解 调 器 也 被 连接 到 一 个 公用 交换 电话 网 络 中 -调制解调器 把 从 
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一 个 串口 控制 器 中 发 送 的 数字 信和 号 转换 成 模拟 信号 ， 该 信号 能 够 在 传统 的 交换 电话 网 络 上 传输 。 数 字 信 和 号 
告诉 调制 解 调 器 来 发 出 一 个 电话 呼叫 ， 响 应 电话 本 地 计算 机 远 地 计 算 机 
呼叫 ， 并 传输 二 进 制 数据 。 另 一 个 调制 解 调 器 连 
接 在 一 个 远程 计算 机 中 ， 通 过 它 可 以 接收 模拟 信 
号 并 将 其 转换 回 第 一 个 计算 机 发 送 的 数字 信号 形 
式 。 将 调制 解 调 器 传输 的 数字 信和 号 接收 到 它 的 串 
口中 ， 然 后 数据 就 能 够 被 远程 计算 机 中 的 驱动 软 
件 所 接收 。 

这 种 点 到 点 、 面 向 字符 的 通信 技术 是 现代 网 
络 的 基础 。 任 何 带 有 调制 解 调 器 和 电话 连接 的 计 
算 机 都 可 以 通过 编程 与 男 一 个 有 调制 解 调 器 和 电 
话 连 接 的 计算 机 建立 连接 。 一 旦 建立 起 电话 连 
接 ， 两 台 计 算 机 就 可 以 使 用 事先 协商 好 的 网 络 通 
信 协 议 (network communication protocol) (或 简 


称 协 议 ) 中 所 建立 的 用 于 交换 的 语法 和 语义 来 交 





交换 电话 网 


换 信息 。 图 15-1 使 用 电话 网 络 连接 计算 机 
当代 网 络 接口 控制 器 (NIC) 是 将 计算 机 连 ” 注 : 音频 电话 网 络 可 用 来 传输 和 接收 数字 信息 。 在 计算 
接 到 特定 的 数据 通信 子 网 (data communication 机 通信 之 前 ， 发 送 调制 解 调 器 和 接收 调制 解 调 器 替 


换 了 传统 的 电话 呼叫 。 发 送 方 计算 机 的 设备 驱动 程 


ae See o 序 将 信息 写 入 串 行 设备 中 ， 然 后 将 信息 写 到 调制 解 
esa: p z 调 器 上 。 调 制 解 调 器 将 数字 信和 号 转换 成 等 价 的 模拟 


调 器 、 电 话 连 接 和 电话 交换 系统 。 大 多 数 NIC 信号 ， 然 后 通过 电话 网 络 将 它 发 送 到 接收 者 的 调制 


包含 有 它们 自己 的 手段 ， 允 许 发 送 者 传送 一 个 字 解 调 器 上 。 接 收 者 的 调制 解 调 器 将 模拟 信号 转换 回 
节 块 给 在 通信 子 网 上 的 任意 其 他 机 器 。NIC 的 一 数字 信号 并 将 它 拷贝 到 串口 设备 中 。 设 备 驱 动 程序 
部 分 责任 就 是 对 写 入 到 NIC 的 字符 流 进 行 编码 ， 从 串口 设备 中 读 取信 息 。 


或 对 从 NIC 中 读 取 的 信息 进行 解码 (就 像 磁盘 
驱动 程序 和 控制 器 编码 /解码 字 节 流 文件 内 容 一 样 )。 

与 第 5 章 中 所 描述 的 其 他 设备 一 样 ， 网 络 接口 控制 器 的 软 / 便 件 接口 是 在 设备 驱动 程序 和 NIC 硬件 之 
间 实现 的 。 然 而 ，NIC 被 连接 在 一 个 通信 子 网 上 
而 不 是 像 存 储 设备 或 终端 一 样 的 局 部 设备 上 。 

需要 另外 的 协议 来 协调 发 送 者 与 接收 者 之 间 
的 行为 。 从 确定 一 个 机 器 如 何 检测 到 来 自 另 一 个 
机 器 的 信号 ， 到 认可 关于 浮 点 数 的 格式 等 。 如 同 
文件 管理 器 的 一 些 功能 能 够 作为 应 用 软件 的 一 部 
分 来 实现 一 样 ， 有 一 些 网 络 协议 的 功能 也 可 以 作 
为 应 用 软件 实现 。 此 外 ， 如 同文 件 系统 的 基本 部 
分 必须 要 在 存储 设备 上 和 操作 系统 中 实现 一 样 ， 
相应 的 网 络 部 分 也 必须 在 网 络 接口 控制 器 和 操作 
系统 中 实现 。 图 15.2 数据 通信 子 网 

注 : 通信 子 网 专门 用 来 支持 数字 数据 传输 (与 音频 传输 

15.1.2 网 络 硬件 需求 相反 )。 像 以 太 网 的 LAN 是 通信 子 网 。 

数据 通信 子 网 是 一 个 特定 的 互 连 媒介 ， 一 个 主机 通过 它 连接 到 网 络 并 可 以 传送 一 个 由 若干 字 节 组 成 的 
块 一 称 为 报 文 packet) ， 到 连接 到 子 网 上 的 其 他 任意 一 个 主机 。 如 果 发 送 主机 在 传输 报 文 时 可 以 选择 接 
收 主 机 ， 这 种 网 络 称 为 多 点 报 文 网 络 ( multidrop packet network )。 主 机 系统 上 的 进程 /线程 准备 要 传输 的 
数据 块 ， 然 后 调用 操作 系统 函数 来 将 报 文 写 到 数据 通信 子 网 中 。 

在 一 个 多 点 报 文 网 络 中 ， 硬 件 的 目标 是 提供 一 个 性 价 比 好 的 方法 来 发 送 报 文 ， 来 获得 比 使 用 电话 网 络 更 
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快 、 更 便宜 的 报 文 网 络 。NIC 和 数据 通信 子 网 所 提供 的 各 种 功能 包括 下 面 这 些 ; 

里 对 报 文 进行 编码 ， 然 后 通过 物理 数据 通信 子 网 将 相应 的 信息 传递 到 目的 主机 上 。 

D 将 报 文 内 容 发 送 到 指定 的 目的 主机 上 。 

在 目的 NIC 上 ， 解 码 所 接收 的 信息 形成 一 个 报 文 。 

Xerox 公司 的 以 太 网 (Ethernet) 是 被 广泛 应 用 的 多 点 报 文 网 ， 其 中 位 信和 号 在 一 个 共享 的 通信 媒介 上 串 
行 地 传输 。 当 以 太 网 在 1980 年 第 一 次 实现 时 ， 要 求 物 理 媒介 是 铜 轴 电 缆 ， 类 似 于 有 线 电 视 和 民用 波段 广 
播 天 线 所 用 的 那 种 电缆 。 现 在 ， 以 太 网 中 可 以 使 用 双 绞 线 ， 类 似 于 电话 或 调制 解 调 器 所 用 的 那 种。 软件 通 
过 从 以 太 网 控制 器 中 读 取 可 变 长 的 报 文 或 将 可 变 长 报 文 写 到 控制 器 中 来 使 用 以 太 网 。 在 一 个 写 操 作 中 ， 在 
网 络 设备 逐 位 传输 内 容 的 时 候 ， 网 络 控制 器 接收 报 文 的 拷贝 并 保存 在 缓冲 中 。 在 15.3 节 中 ， 你 将 了 解 到 
以 太 网 是 如 何 工作 的 。 如 前 面 所 介绍 的 ， 以 太 网 中 使 用 的 这 些 技术 是 如 此 廉价 ， 以 至 于 在 20 世纪 80 年 代 
早期 创造 了 使 用 数据 网 络 的 重大 突破 。 今 天 的 以 太 网 ， 在 不 长 于 1 1 公里 的 电弧 连 接 的 主机 之 间 的 传输 达 率 
接近 1Gbps。 


15.1.3 网 络 软件 需求 


在 20 世纪 60 年 代 后 期 ,研究 者 和 开发 者 们 开始 使 用 数据 网 络 进行 实验 。 大 家 很 快 明白 了 不 同 的 应 用 
需要 使 用 通信 子 网 的 一 些 基本 功能 ， 但 是 它们 各 自 还 需要 增加 一 些 特定 的 功能 。 例如， 增加 额外 的 功能 使 
网 络 完成 如 下 的 工作 ， 

m 控制 信息 传输 速率 。 

E 为 -一 个 网 络 上 主机 与 另 一 个 不 同 网 络 上 的 主机 之 间 进 行 通信 提供 一 种 方法 。 

里 允许 一 个 报 文 流 包含 类 似 于 字 节 流 文件 (BR UNIX 管道 ) 那样 的 字 节 流 。 

m 在 网 络 可 能 偶尔 会 丢失 信息 的 情形 中 保证 可 靠 的 传输 。 

B 提供 安全 特征 。 

E 为 涉及 穿越 网 络 进行 IPC 的 进程 提供 一 个 标准 的 行为 模式 。 

B 用 于 传输 文件 。 

n 用 于 允许 一 个 机 器 中 的 用 户 登录 到 一 个 不 同 的 机 器 中 。 

E 仿真 在 一 个 机 器 的 进程 中 对 另 一 个 机 器 中 的 过 程 调 用 。 

D 在 相关 机 器 的 表示 之 间 转 换 信息 〈 因 为 不 同 的 机 器 对 于 多 字 节 的 字 常 常 使 用 不 同 的 表示 形式 )。 

简 而 言 之 ， 需 求 是 不 同 的 。 早 期 的 网 络 设计 者 意识 到 要 解决 的 第 一 个 问题 是 分 析 需 求 ， 使 得 不 同 的 应 
用 域 可 以 选择 适合 它们 的 需求 ， 这 导致 了 定义 需求 模型 被 组 织 成 层次 体系 结构 (layered architecture)。 例 
如 ， 由 网 络 硬件 实现 的 功能 都 是 在 体系 结构 的 较 低层 定义 的 ， 因 为 每 个 应 用 域 都 需要 这 些 功能 。 然 而 ， 
IPC 机 制 将 使 用 与 文件 系统 所 使 用 的 不 同 的 基本 信号 传输 机 制 。IPC 机 制 的 设计 目的 是 最 小 化 通信 延迟 ， 
而 文件 传输 机 制 试图 最 大 化 带宽 。 

在 层次 体系 结构 方法 中 ， 功 能 被 分 成 集合 。 一 个 更 抽象 层 的 功能 可 以 使 用 其 支持 层 中 的 功能 。 在 网 络 
中 ,任何 特殊 层 中 实现 的 功能 定义 了 一 组 通信 协议 ， 使 用 这 层 协议 所 写 的 软件 可 以 与 使 用 同一 层 协 议 所 写 
的 其 他 软件 进行 通信 。 例 如 ， 如 果 两 个 机 器 有 以 太 网 NIC (连接 到 一 个 公共 的 数据 通信 子 网 )， 这 两 台 机 
器 上 的 设备 驱动 程序 可 以 交换 报 文 。 这 种 基本 的 思想 被 称 为 对 等 (peer-to-peer) 通信 。 可 以 建立 两 个 应 用 
来 根据 层 i 抽象 来 进行 通信 ， 它 们 使 用 了 网 络 体系 结构 中 层 ; 的 相同 组 件 。 例 如 ，FTP (文件 传输 协议 ) 
定义 了 一 组 函数 ， 它 允许 两 个 对 等 进程 来 交换 文件 。 因 为 采用 了 分 层 的 方法 ， 两 个 进程 都 不 必 知 道 NIC 和 
数据 通信 子 网 的 任何 细节 ， 相 反 ， 它 们 使 用 get 和 put 来 传输 文件 。 

层次 体系 结构 建立 了 用 于 通信 的 的 一 组 层次 协议 。 底 层 的 协议 包含 了 网 络 硬 件 操作 的 简单 抽象 ， 高 层 协 
议 是 硬件 操作 的 更 复杂 抽象 。 协 议 对 于 网 络 来 说 并 不 是 新 的 思想 。 程序 员 例 行 地 使 用 协议 允许 他 们 程序 中 
的 一 部 分 来 同 其 他 部 分 进行 通信 。 例 如 ， 一 个 函数 调用 协议 中 规定 ， 程序 调用 部 分 中 将 通过 使 用 一 个 函数 
名 来 标识 它 希 望 与 之 通信 的 另 一 部 分 程序 。 在 ANSI C 中 ， 函 数 原型 明确 地 规定 了 如 何 传递 参数 的 协 
议 一 一 参数 的 数目 和 类 型 。 

如 前 面 小 节 中 所 提 到 的 一 样 ， 协 议 也 被 用 于 文件 的 读 写 中 。 当 一 个 线程 写 一 个 结构 化 的 文件 时 ， 它 遵循 格 
式 化 信息 的 一 个 协议 ， 因 而 其 他 任何 线程 能 够 使 用 该 协议 来 从 文件 中 读 取 信息 。 
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所 有 的 网 络 通信 均 取 决 于 同时 存在 的 两 个 自治 进程 以 及 它们 之 间 相 互 认 可 的 通信 。 相 互 合作 的 通信 ， 

只 有 在 两 个 进程 在 相互 交换 信息 的 准确 语法 和 语义 上 恰好 一 致 时 才能 成 功 。 例 如 ， 如 果 进 程 pi 准备 发 送 
bins Pz， 那么 两 个 进程 必须 首先 根据 第 8 章 中 所 描述 的 机 制 进行 同步 。 因 而 当 pi 传 输 文件 时 ， 

应 该 准备 读 取 网 络 来 进行 接收 。 那 么 数据 传输 的 单位 应 该 是 什么 呢 ? 有 可 用 的 公共 数据 模型 吗 ? 应 该 有 
Kit 种 的 模型 吗 ? 如 果 机 器 对 于 浮 点 数 有 不 同 的 表示 方法 ， 那 么 进程 如 何 保证 进行 相应 的 格式 转换 呢 ? 
为 了 处 理 这 些 以 及 其 他 无 数 的 问题 ， 两 个 进程 的 程序 必须 就 定义 所 有 的 通信 语法 和 语义 的 协议 达成 一 致 。 

文件 传输 只 是 通信 的 一 种 ， 进 程 还 可 能 希望 交换 消息 、 请 求 远程 服务 等 ， 因 而 有 很 多 不 同 的 网 络 协议 
用 于 处 理 一 系列 的 通信 应 用 。 这 形成 了 网 络 开发 的 一 条 进化 途径 ， 由 一 个 称 为 ISO 的 开放 系统 互 连 (OSI) 
体系 结构 所 指导 。 该 模型 规定 了 协议 的 一 般 方法 ， 在 某 些 方面 包括 了 协议 中 非常 明确 的 一 些 细节 。ISO 的 
OSI 体系 结构 将 在 下 面 描述 。 


15.2 ISOM OSI 网 络 体系 结构 模型 


在 当代 网 络 技术 中 ，ISO 的 OSI 体系 结构 模型 是 定义 网 络 协议 的 主要 模型 。 该 模型 是 一 种 标准 的 体系 
结构 ， 它 已 经 被 很 多 开发 者 和 用 户 采纳 (尽管 体 系 结构 中 的 细节 可 能 是 变化 的 )。 先 考虑 一 下 该 模型 的 演 
化 ， 这 对 于 理解 它 的 工作 方式 是 有 帮助 的 。 


15.2.1 网 络 协议 的 演变 


在 20 世纪 60 年 代 后 期 ， 网络 技 术 发 展 到 了 分 布 式 计算 开始 成 为 少数 应 用 领域 的 性 价 比 高 的 计算 方式 
的 水 平 。 到 1975 年 ， 美 国 国防 部 的 ARPA 网 已 经 在 全 国 范围 内 建立 起 来 ， 成 为 支持 多 方面 国防 应 用 的 一 
个 远 距 离 通 信 工 作 网 。 与 此 同时 ， 在 欧洲 支持 商业 化 应 用 的 义 .25 网 络 已 经 成 为 可 行 的 技术 。 

在 20 世纪 70 年 代 后 期 ，ISO 开始 传播 关于 网 络 通信 的 OSI 体系 结构 模型 的 首 版 草稿 文献 ， 其 内 容 受 到 
T X.25 网 络 技术 的 很 大 影响 。 互 [1980] 撰写 了 首 批 详细 描述 ISO 的 OSI 模型 的 技术 性 论文 中 的 一 
篇 。 然 而 在 美国 ，ARPA 网 已 经 成 为 网 络 开发 的 主要 动力 。 

到 1980 年 ， 以 太 网 以 无 可 争议 的 事实 证 明了 局 域 网 (local area network) 在 商业 化 领域 中 的 可 行 性 
[Metcalfe and Boggs，1976]。X.25 和 ARPA 网 都 被 控制 在 几 英里 或 几 百 英里 的 范围 内 进行 通信 ， 以 太 网 被 
用 于 连接 位 于 几 百 英尺 内 的 一 组 机 器 (技术 上 可 达 1 公里 的 跨度 )。X.25 和 ARPA 网 以 可 变 的 速率 来 传输 
信息 (在 1Kbps 到 1Mbps 之 间 )， 这 取决 于 所 使 用 的 网 络 部 分 。 而 研究 中 的 以 太 网 在 它 的 局 部 范围 内 以 
3Mbps 的 速率 传输 信息 ， 并 且 第 一 个 标准 的 以 太 网 达到 了 10Mbps。 

在 20 世纪 70 Eft, IBM 的 系统 网 络 体系 结构 (SNA) 也 对 商业 化 的 计算 设备 有 很 大 的 影响 。 虽 然 
ARPA 网 、X.25 以 及 以 太 网 协议 对 任何 人 都 是 开放 可 用 的 , SNA 协议 是 作为 IMB 产品 的 一 个 部 分 来 开发 
的 ， 所 以 它 是 专 有 的 〈 但 是 使 用 得 很 广泛 ) ， 它 的 重要 性 在 于 使 建立 数据 网 络 成 为 可 行 的 技术 。 到 1980 
年 ，SNA 已 经 提出 了 令 牌 环 局 域 网 作为 以 太 网 的 可 替代 方案 ， 应 用 于 一 个 开放 的 环境 中 。 

在 1980 年 ，DEC、Xerox 以 及 Intel 联合 宣布 了 商业 化 的 以 太 网 局 域 网 技术 ， 它 们 修改 了 ARPA 网 协 
议 的 中 间 层 ， 以 适应 于 使 用 它们 的 低层 局 域 网 技术 。 几 乎 在 同一 个 时 候 ，IBM 宣布 了 令 牌 环 局 域 网 技术 。 
IEEE 标准 委员 会 研究 了 以 太 网 和 令 牌 环 网 ， 试 图 获得 一 个 遵循 ISO 的 OSI 模型 的 可 行 的 商业 化 局 域 网 标 
准 。 在 20 世纪 80 年 代 ，IEEE 的 802 委员 会 发 布 了 一 个 作为 局 域 网 基础 的 草案 标准 ， 其 中 以 太 网 和 令 牌 
环 网 都 被 作为 可 选 方案 予以 接收 ， 尽 管 它 不 可 能 用 于 直接 将 以 太 网 和 令 牌 环 网 相连 。 这 是 一 个 标准 体系 结 
构 模 型 (IEEE 802 就 是 这 种 情形 ) 如 何 被 用 于 两 种 不 同 的 实际 实现 中 的 例子 。 一 个 IEEE 802 标准 的 网 络 
可 以 使 用 以 太 网 标准 实现 ， 也 可 以 使 用 令 牌 环 网 标准 实现 ， 但 它们 两 个 不 能 直接 相连 。 在 20 世纪 90 年 代 
早期 ，IEEE 802 草案 成 为 局 域 网 通信 的 ISO/TEC 8802 标准 。 

在 20 世纪 80 年 代 ， 网 络 技术 方面 的 发 展 有 三 个 主要 的 推动 力 (SRA 15-3): 

m ISO 的 OSI 模型 建立 起 了 标准 网 络 协议 的 基础 ， 它 们 主要 来 自 于 X.25 网 络 技术 ， 但 也 在 一 一 定 程度 

上 受到 了 ARPA 网 的 影响 。 今 天 ， 该 模型 是 主要 的 通用 协议 体系 结构 模型 。 
m ARPA 网 对 关键 的 中 间 层 协议 (CHE TCP. UDP 以 及 IP) 的 贡献 ， 这 些 协议 已 经 用 了 30 多 年 。 
@ IEEE 802 LAN 建立 的 性 价 比 很 高 的 通信 环境 。 当 以 太 网 在 IEEE 草案 标准 中 提出 时 ， 令 牌 环 网 技 
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术 是 它 的 主要 竞争 者 (同时 还 有 另 一 种 称 为 令 牌 总 线 的 方法 )。 经 过 几 年 的 争论 后 ，IEEE 802 委员 
会 在 一 个 草案 标准 中 采纳 了 以 太 网 方法 (IEEE 802.3)、 令 牌 总 线 方法 (IEEE 802.4) 以 及 令 牌 环 
方法 (IEEE 802.5). ISO/IEC 8802 是 IEEE 802 的 国际 版 本 。 
图 15-3 中 的 灰 线 表示 开发 商 试图 将 ISO OSI 和 ARPA 网 相交 于 一 点 。 今 天 ，ISO OSI 体系 结构 是 主要 
的 框架 ， 所 有 的 网 络 都 是 参照 其 框架 构建 的 。 即 X25 ARPA 网 
fE TCP/UDP /IP 并 没有 严格 遵循 ISO OSI, 它们 197° | IBM SNA 
仍然 是 主要 的 中 间 层 协议 。 我 们 来 看 看 各 层 的 发 ”1975 | 


展 ， 包 括 最 低层 (例如 ， 无 线 技术 )。 og0 50O HAM, ym 
15.2.2 ISO 的 OSI 模型 1985 IEEE 802 
[SO 的 OSI 体系 结构 模型 定义 了 一 个 所 有 网 络 190 | 
通信 所 使 用 的 一 般 功 能 类 型 集 ,并 将 这 些 功 能 类 型 ”199s oe res ISO 8802 
组 织 成 一 个 有 层次 的 体系 结构 。 任 意 特定 的 网 络 应 、 
图 15-3 网络 技 术 的 发 展 
用 ,如 文件 传输 ,都 使 用 一 个 特定 的 协议 集合 , 称 为 。 注 , 现代 网 络 几乎 都 遭 循 ISO OSI 模型 ，ARPA 网 和 


BSAA (protocol stack) ,来 说 明 用 于 特定 网 络 会 话 的 。 IEEE 802 协议 不 是 作为 ISO OSI 模型 的 一 部 分 来 开 
协议 ,如 如 何 进 行文 件 传输 。ISO OSI 模型 将 功能 分 at, 尽管 它们 与 ISO OSI 的 一 般 体 系 结构 相 匹 
成 7 层 ,层次 如 下 : 


E 物理 层 (physical layer): 模型 中 的 最 低层 。 遵 循 ” Iso 的 OSI 物理 层 标准 的 一 个 特定 协议 定义 了 信息 
如 何 被 编码 和 传输 到 另 一 个 机 器 中 。 用 于 连接 终端 、 调制 解 调 器 以 及 打印 机 到 计算 机 的 RS-232 异 
步 串 行 通信 协议 类 似 于 一 个 物理 层 协议 ， 尽 管 它 通常 不 被 认为 是 一 个 网 络 协议 。 以 太 网 的 载波 侦 听 
和 冲突 检测 是 一 个 物理 层 网 络 协议 的 好 例子 (参见 15.3 节 )。 

图 AHERE (data link layer): 建立 在 物理 层 之 上 ， 在 以 太 网 和 令 牌 环 网 的 情形 中 ， 与 物理 层 一 起 都 
是 通过 硬件 实现 的 。( 然 而 ， 在 SLIP 和 PPP 中 的 数据 链 路 层 是 通过 使 用 RS-232 物理 层 的 软件 实现 
的 。 可 参见 Stevens [1994，ch.2])。 数 据 链 路 层 定义 了 建立 帧 的 一 个 协议 ， 帧 是 报 文 在 链 路 层 中 的 
名 字 。 信 息 巾 中 结合 有 一 个 帧 头 、 一 个 数据 块 以 及 报 文 尾 。 数 据 链 路 层 中 的 一 个 用 户 可 以 与 网 络 中 
的 另 一 主机 交换 帧 。 数 据 链 路 层 将 在 15.3 节 中 讨论 。 

B 网 络 层 (network layer): 它 生成 了 一 个 很 大 的 网 络 和 主机 的 地 址 空间 ， 称 之 为 网 际 地 址 空间 (inter- 
net address space) 。 这 种 设施 推动 了 网 中 网 的 发 展 ， 称 之 为 互联 网 (internet) ， 其 中 互联 网 的 每 个 结 
点 本 身 也 是 一 个 网 络 。 信 息 作 为 一 个 报 文 在 互联 网 上 传输 。 网 络 层 通 常 作为 操作 系统 的 一 部 分 来 实 
现 ， 这 将 在 15.4 节 中 讨论 。 

@ 传输 层 (transport layer): 通过 将 多 通信 端点 (endpoint) 增加 到 主机 ， 扩展 了 网 络 层 的 地 址 空间 。 
提供 对 网 络 服务 的 各 种 应 用 接口 ， 包 括 块 、 字 节 流 、 以 及 记录 流通 信 。 它 通常 至 少 有 部 分 是 在 操作 
系统 中 所 实现 的 〈 同 时 有 些 部 分 是 在 系统 软件 中 实现 的 ) ， 将 在 15.5 节 中 详细 讨论 。 

E 276% (session layer): 通过 使 用 专门 的 进程 间 通 信 策略 ， 扩 展 了 传输 层 的 功能 。 例 如 ， 网 络 消息 
协议 或 者 远程 过 程 协议 将 会 在 会 话 层 实现 。 典 型 的 会 话 层 是 作为 应 用 程序 库 来 实现 的 ， 将 在 第 17 
章 中 介绍 。 

B 表示 层 (presentation layer): 定义 数据 抽象 和 表示 的 协议 ， 并 且 也 是 作为 库 代 码 来 实现 的 ， 将 在 第 
17 章 中 概述 。 

@ © (application layer): 在 ISO 的 OSI 模型 中 ， 为 分 布 式 计算 实现 应 用 软件 。 没 有 应 i H JE KJER 
准 ， 因 为 它 可 能 应 用 于 任意 领域 。 它 存在 于 模型 中 是 为 了 说 明 应 用 程序 在 层次 体系 结构 中 的 位 置 。 

在 ISO 的 OSI 模型 中 的 层次 定义 了 一 系列 通信 功能 的 抽象 。 每 个 进程 使 用 一 个 特定 的 协议 栈 ， 在 协议 

层 中 选择 相应 的 协议 组 件 来 实现 它 自己 的 网 络 。 图 15-4 说 明了 根据 ISO 的 OSI 模型 ， 两 个 通信 进程 抽象 
闻 的 关系 。 发 送 进程 的 物理 层 是 唯一 实际 传输 信息 到 接收 进程 物理 层 的 层次 。 发 送 进程 的 数据 链 路 层 逻 辑 
上 传输 一 个 帧 到 接收 者 的 数据 链 路 层 ， 这 是 通过 把 帧 转换 成 物理 层 所 使 用 的 形式 ， 然 后 将 信息 传送 到 物理 
层 来 完成 的 ， 因 为 只 有 物理 层 才 可 以 将 信息 送出 去 。 物 理 层 将 组 成 数据 链 路 帧 的 信息 传输 到 接收 机 器 的 物 
理 层 ， 在 那儿 被 组 织 成 接收 者 的 数据 链 路 层 中 的 帧 。 在 两 个 数据 链 路 层 之 间 有 一 个 对 等 通信 (peer-to-peer 
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communication). Æ 15-4 中 ， 使 用 加 粗 的 实心 线 强调 两 个 机 器 之 间 的 信息 传输 只 是 在 物理 层 进行 ， 然 而 在 
网 络 的 每 个 相应 层 中 都 有 逻辑 通信 (如 图 中 使 用 不 
同 模式 的 虚线 所 指示 的 )。 

在 网 络 层 中 ， 网 络 报 文 转换 成 数据 链 路 帧 ， 后 
来 又 转换 成 物理 层 格 式 。 物 理 层 传输 信息 到 接收 机 
器 ， 在 那儿 信息 被 转换 成 数据 链 路 帧 并 且 又 转换 成 
网 络 报 文 。 这 样 实现 了 对 等 通信 。 相 同 的 技术 被 用 
于 传输 层 、 会 话 层 、 表 示 层 以 及 应 用 层 之 间 的 对 等 
通信 。 应 用 层 使 用 表示 层 接口 提供 的 一 个 高 度 抽象 
的 通信 机 制 ， 例 如 ， 远 程 文件 服务 器 接口 、 远 程 打 
印 服务 器 接口 或 者 远程 过 程 调 用 接口 。 

ISO 的 OSI 模型 是 一 个 一 般 的 模型 ， 它 反映 了 
各 个 生产 网 络 设备 和 网 络 主机 的 不 同 制造 商 之 间 的 








图 15-4 ”对 等 通信 
TE: 一 个 实体 〈 如 进程 ) 可 以 使 用 网 络 在 ISO OSI 模型 
任何 一 层 来 与 另 一 台 机 器 的 对 等 实体 进行 通信 。 
协定 。 在 模型 的 一 般 形式 已 经 被 接受 多 年 的 同时 ， mes 可 行人 和 有 天 的 可以 与 与 之 和 机 
具体 的 协议 还 在 发 展 。 例 如 ，ARPA 网 中 的 IP 协议 使 用 传输 层 函 数 的 对 等 进程 进行 通信 。 
尽管 不 是 标准 的 一 部 分 ， 但 它 仍 是 ISO 的 OSI 网 络 
层 的 主要 实现 ; 同时 事实 上 已 采纳 TCP (和 UDP) 作为 传输 层 实现 ，IP 作为 网 络 层 的 实现 ， 传 输 层 的 接 


口 以 及 该 层 以 下 相对 是 稳定 的 。 

在 任何 当代 操作 系统 中 ， 必 须 提 供 对 各 种 数据 链 路 层 和 物理 层 网 络 控制 器 的 支持 ， 同 样 要 有 网 络 和 传 
输 层 的 实现 。 接 下 来 的 章节 将 概述 在 数据 链 路 层 和 物理 层 上 实现 的 趋势 ， 然 后 讨论 中 间 层 的 协议 。 由 于 高 
层 协 议 没有 在 现代 操作 系统 中 很 好 地 形成 ， 因 而 只 在 第 16 和 17 章 中 描述 了 影响 这 些 层 设计 的 因素 。 第 17 
章 中 讨论 了 远程 调用 协议 ， 并 随后 讨论 了 设计 和 使 用 它 的 理由 。 有 几 本 详细 描述 ISO 的 OSI 模型 的 优秀 著 
作 ， 参 见 Piscitello and Chapin [1993], Stevens [1994] 和 Stevens and Wright [1995]. 

我 们 现在 应 该 明白 ARPA 网 协议 如 何 能 够 被 用 作 一 个 ISO 的 OSI 协议 栈 的 了 。TCP 和 UDP 相当 于 传 
输 层 协议 (一 个 通信 要 么 使 用 TCP ,要 么 使 用 UDP, 但 是 不 能 同时 使 用 ) ,IP 相当 于 一 个 网 络 层 协议 。ISO 的 
OSI 传输 层 接口 (TLD 提 供 了 很 多 与 TCP( 传 输 控 制 协议 ) 所 做 的 相同 功能 ,因而 在 图 15-5a 中 纯 ISO 的 OSI 
协议 栈 可 使 用 ISO OSI 会 话 层 协议 来 实现 。ISO 的 OSI 会话 层 协 议 也 可 以 在 TCP 之 上 实现 ,TCP 在 卫 之 上 
实现 ,IP 在 以 太 网 之 上 实现 (参见 图 15-5b)。 一 个 ISO 的 OSI 会 话 层 的 用 户 在 任 一 种 实现 中 都 会 获得 相同 
的 服务 ,因而 独立 于 协议 栈 的 实现 。 当 然 ,一 个 在 以 太 网 数据 链 路 层 上 的 实现 不 能 直接 与 一 个 X.25 数据 链 
路 层 上 的 实现 进行 通信 ,但 使 用 以 太 网 版 本 编写 的 网 络 层 软件 不 用 改变 就 可 直接 用 于 纯正 的 协议 栈 中 。 

















a) 纯 ISO OSIP RAR b) ISO OSIFR RAR 


图 15-5 在 ISO OSI 协议 栈 中 使 用 TCP/IP 
注 : 上 面 是 与 ISO 的 OSI 标准 相 适应 协议 栈 的 两 个 例子 。 在 a 中 的 例子 每 一 级 都 遵循 ISD OSI 规范 ， 但 是 在 b 中 , 仅 
仅 会 话 层 是 ISO OSI 协议。 然而， 以 太 网 和 ARPA 网 实现 一 般 都 遵循 了 OSI 模型 并 能 完全 兼容 地 支持 会 话 层 协议 。 
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15.3 ”媒体 访问 控制 (MAC) 协议 


物理 层 和 数据 链 路 层 协议 常 称 作 媒体 访问 控制 (MAC) 协议 。 它 们 描述 了 NIC 和 数据 通信 子 网 。 因 
为 网 络 “《 与 存储 设备 相 比 ) 没有 那么 多 的 功能 ， 这 对 操作 系统 管理 这 些 新 的 硬件 资源 提出 了 挑战 。 如 我 们 
对 ISO OSI 模型 的 讨论 ， 网 络 的 许多 行为 是 由 用 户 空间 软件 定义 的 。 当 网 络 出 现时 ， 对 网 络 的 支持 将 涉及 
到 传统 的 操作 系统 设备 管理 的 各 个 部 分 。 我 们 将 在 第 16 章 研究 网 络 对 文件 管理 的 设计 的 影响 ， 在 第 17 章 
中 研究 网 络 对 操作 系统 其 他 部 分 的 影响 。 网 络 现在 正在 影响 存储 管理 和 进程 管理 的 设计 。 

LOMbps 的 商业 化 局 域 网 的 出 现 ,使 公司 能 够 使 用 一 个 高 速 共 享 的 媒介 来 连接 计算 机 ,公司 开始 替换 局 
域 网 中 使 用 的 速率 低 于 10Kbps 的 串 行 线 。 局 域 网 的 带宽 在 20 世纪 80 年 代 技 术 上 增长 了 一 个 数量 级 ,到 90 
年 代 中 期 就 已 经 以 100Mbps 的 速率 在 运行 ,并 且 到 现在 可 行 的 速率 已 经 达到 1Gbps 了 。 除 了 局 域 网 的 运行 
速率 有 了 根本 性 的 增长 ,它们 的 物理 范围 也 已 经 增长 到 有 时 难于 与 广域网 (WAN) 技 术 进 行 区 分 的 程度 了 。 

在 编写 这 些 内 容 的 时 候 ， 我 们 仍然 不 能 完全 概括 出 新 的 高 速 网 络 对 操作 系统 的 影响 。 然 而 ， 这 种 网 络 
上 的 速率 变化 将 能 够 支持 进程 拥有 跨越 机 器 的 地 址 空间 ， 同 样 也 使 调度 程序 能 够 在 一 组 不 同 的 计算 机 中 ， 
而 不 只 是 在 局 部 的 CPU 上 来 调度 执行 进程 。 这 种 情形 要 求 从 根本 上 重新 考虑 进程 和 存储 管理 器 的 设计 。 

操作 系统 和 网 络 的 变化 也 促使 人 们 开发 出 新 类 型 的 应 用 程序 ,更 大 量 的 数据 在 机 器 间作 为 文件 .持续 的 流 ( 通 
常 为 音频 和 视频 信息 )` 或 者 如 图 像 或 声音 这 种 有 类 型 的 信息 被 传输 。 例 如 ,有 足够 带宽 在 网 络 上 的 机 器 间 传 递 多 
媒体 信息 的 网 络 正在 出 现 。 这 种 带宽 要 求 操作 系统 能 够 管理 在 网 络 设备 和 应 用 程序 之 间 的 高 速 数据 传输 。 

网 络 物理 层 和 数据 链 路 层 的 改变 导致 了 整个 网 络 技术 的 快速 增长 。 这 些 技术 的 更 深入 的 研究 已 经 超出 
本 书 的 范围 ， 本 节 只 描述 一 下 它们 的 基本 行为 ， 以 使 学 生 可 以 更 好 地 理解 它们 对 操作 系统 发 展 的 影响 。 


15.3.1 物理 层 


多 点 (multidrop) 请 求 是 网 络 技术 的 一 个 屏障 ， 直 到 20 世纪 80 年 代 才 被 以 太 网 和 令 牌 环 网 所 打破 ， 
屏障 起 源 于 对 网 络 的 可 伸缩 性 的 要 求 。 多 点 网 络 必须 允许 网 络 上 的 每 个 主 结 点 能 够 发 送信 息 到 网 络 上 其 他 
所 有 的 结 点 ,或 者 从 中 接收 信息 。 这 种 要 求 意 味 着 必须 在 网 络 中 的 每 对 结 点 之 间 有 一 个 (你 辑 的 ) 传输 路 
径 。 如 果 这 种 连接 通过 直接 映射 逻辑 连接 到 物理 连接 来 实现 ， 那 么 每 个 计算 机 都 将 有 与 其 他 所 有 计算 机 的 
一 个 点 到 点 连接 。 如 果 有 n 个 主机 ， 那 么 每 个 主机 必须 要 有 n-1 个 通信 端口 (参见 图 15-6) ， 结 果 网 络 
中 将 有 n(n -1) 之 个 连接 。 因 为 网 络 中 的 连接 数目 会 随 着 主机 数目 的 平方 而 增长 ， 所 以 这 种 完全 连接 网 
络 不 易 扩 展 。 对 于 大 型 网 络 的 建立 ， 需 要 在 物理 层 使 用 不 同 的 拓扑 结构 。 

多 点 访问 总 线 的 物理 层 拓 扑 结构 ， 如 用 于 以 太 网 中 的 结构 ， 打 破 了 通信 网 络 的 开销 屏障 ( 见 图 15-7)。 
多 点 访问 总 线 技术 使 用 了 单个 公共 的 媒介 ， 让 其 在 不 同 的 时 刻 分 配给 不 同 的 发 送 者 使 用 来 传输 数据 。 信 息 
放 在 共享 的 媒介 上 ， 同 时 带 有 指定 接收 者 的 地 址 ， 从 而 由 一 个 主机 传输 到 另 一 个 。 每 个 接收 者 扫描 共享 的 
媒介 ， 并 接收 带 有 它 的 地 址 的 信息 。 在 这 种 拓扑 结构 中 ， 物 理 层 协议 的 大 部 分 将 处 理 如 同步 与 异步 操作 、 
集中 与 非 集中 共享 媒介 分 配 等 问题 。 可 靠 性 和 竞争 是 多 点 访问 总 线 存在 的 主要 问题 ， 可 靠 性 在 体系 结构 的 
更 高 层次 中 进行 处 理 ， 通 过 控制 器 来 处 理 竞争 。 
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图 15-6 全 连接 的 网 络 拓扑 图 15-7 多 点 访问 总 线 拓扑 结构 
注 : 多 点 网 络 的 目标 就 是 全 连接 ， 如 图 中 所 示 ， 这 种 注 : 多 点 访问 网 络 依赖 于 分 时 共享 ， 当 一 个 主机 可 
拓扑 允许 任何 主机 可 与 其 他 主机 进行 通信 。 不 幸 以 使 用 共享 总 线 时 ， 它 将 信息 以 及 目的 主机 地 
的 是 ， 如 果 物 理 网 络 按 图 所 示 来 实现 ， 在 网 络 中 址 写 到 总 线 上 ， 所 有 的 主机 读 总 线 ， 寻 找 具 有 


HEO (n°) 根 连 线 ， 并且 是 不 可 伸缩 的 。 它们 地 址 的 报 文 。 
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今天 ， 无 线 物理 层 对 网 络 和 计算 机 有 巨大 的 影响 ，IEEE 802.11b 协议 (也 称 为 WiFi) 提供 了 10Mbps 
的 兼容 以 太 网 ， 它 使 用 2.4 千 兆 赫 的 波段 空间 来 传输 和 接收 信息 。 无 线 访问 点 就 像 以 太 网 的 逻辑 扩展 ( 见 
图 15-8)。 通 过 将 这 样 的 访问 点 添加 到 以 太 网 局 域 网 中 ， 主 机 可 以 通过 传统 线路 或 无 线 通 信 连 接 到 网 络 。 





图 15-8 无线 网 络 与 有 线 网 络 的 互 连 
注 : IEEE 802.11b (WiFi) 协议 的 网 络 扩展 了 以 太 网 ， 它 允许 主机 在 无 线 物理 层 上 传输 信息 。 


有 一 些 其 他 的 无 线 LAN 协议 ， 例如 ，IEEE 802.11a 协议 使 用 了 不 同 的 波段 空间 并 且 比 802.11b 协议 
Etik, IEEE 802.15.1 协议 规范 类 似 于 个 人 网 络 的 蓝牙 无 线 规范 。 这 个 技术 领域 是 十 分 活跃 的 ， 大 家 可 以 
在 网 络 上 查找 这 个 领域 内 最 近 的 技术 。 


a 





示例 : 快速 物理 层 

用 于 以 太 网 中 的 信号 技术 ， 一 个 节拍 传输 一 位 信息 ， 类 似 于 RS-232 串 行 端口 传输 信息 的 方法 (SR 
第 5 章 )。 电 信和 号 能 够 穿越 物理 线路 的 速率 大 约 是 光速 的 77%。 然 而 ,尽管 可 以 以 这 样 的 速率 传输 信号 ， 
但 在 以 最 大 速率 进行 传输 时 ， 区 分 不 同 电压 等 级 的 机 制 就 不 能 正确 地 工作 了 。 以 太 网 中 的 10Mbps 信和 号 传 
输 速率 受 限于 接收 者 能 够 识别 电压 等 级 的 速率 。 如 何 使 物理 层 网 络 比 以 太 网 更 快 呢 ? 有 三 种 技术 : 

(1) 实现 一 个 更 好 的 电压 检测 机 制 。 

(2) 在 一 个 时 刻 传输 多 位 信息 。 

(3) 使 用 不 同 的 信号 媒介 。 

100Mbps 的 以 太 网 就 是 通过 使 用 了 更 好 的 检测 电压 等 级 的 机 制 来 改善 性 能 的 。 

在 并 行 位 通信 中 ， 能 够 在 一 个 时 刻 传输 多 个 位 信息 (如 一 个 字 节 )。 例 如 ， 一 个 并 行 通信 端口 在 同一 
时 刻 传输 一 个 字 节 的 8 个 位 ， 而 串 行 通信 端口 只 能 一 个 接 一 个 位 地 进行 传输 。 可 以 将 网 络 设计 成 有 多 种 物 
理 路 径 ， 例 如 最 快 的 以 太 网 通常 实际 使 用 多 根 物理 线路 [Schulzrinne，1999]。 网 络 也 可 以 使 用 另 一 种 技术 
来 获得 如 同 并 行 传输 一 样 的 效果 ， 不 只 是 使 用 3 种 电压 等 级 (没有 信号、 传输 0 以 及 传输 1) ， 它 们 可 以 使 
FAN = 2+ 1 种 电压 等 级 。 例 如 ， 如 果 使 用 5 种 电压 等 级 ， 就 可 以 表示 没有 信和 号 、00、01、10 或 11。 这 
种 技术 被 用 于 1000Mbps 的 基带 双 绞 线 以 太 网 中 [Schulzrinne, 1999], 

光纤 可 能 被 认为 比 钢 线 媒介 更 快 一 些 ， 然 而 在 光纤 中 的 信号 传播 速率 大 约 是 光速 的 65% (在 铜 线 中 
为 光速 的 77%) [Schulzrinne，1999]。 当 数字 信息 在 光纤 中 传输 时 ， 它 被 转换 成 易于 区 分 的 光 信 和 号 。 光纤 
通过 比 用 于 铜 线路 中 更 好 性 价 比 的 信号 等 级 传输 器 和 接收 器 ， 可 以 提供 更 高 的 有 效 传输 速率 。 当 光纤 电缆 
用 于 当代 的 高 速 物理 层 时 ， 目 前 能 够 获得 Gbps 级 的 传输 速率 。 

~ E 


15.3.2 数据 链 路 层 
数据 链 路 层 协议 将 物理 层 中 的 字 节 流 划分 成 一 个 称 为 帧 (frame) 的 字 节 组 。 一 个 帧 由 帧 头 和 帧 尾 共 








同 确定 了 关于 帧 的 各 种 信息 ， 如 帧 的 目的 地 、 帧 的 传输 者 、 帧 的 类 型 、 数 据 字 节 数目 以 及 一 个 校 验 和 。 

在 数据 链 路 层 之 上 ， 网 络 允 许 一 个 主机 i 发 送 某 种 类 型 的 帧 到 主机 j。 数 据 链 路 层 也 支持 流量 控制 和 
错误 控制 ， 流 量 控 制 用 于 确定 在 任 一 对 主机 之 间 的 报 文 流速 率 。 数 据 链 路 层 支 持 幢 从 一 个 主机 流向 男 一 
主机 ， 因 此 ， 一 个 接收 者 必须 在 帧 被 传输 时 能 够 接收 它 。 有 几 个 原因 会 导致 主机 不 能 接收 到 来 的 帧 : 

B 帧 可 能 是 发 送 给 一 个 不 存在 的 主机 或 者 该 主机 当前 关机 。 

m 接收 主机 网 络 设备 驱动 程序 可 能 是 中 断 驱动 的 ， 如 果 中 断 被 屏 项 ， 到 来 的 帧 会 丢失 。 

E 帧 最 终 要 由 在 主机 上 的 某 个 进程 来 接收 ， 这 要 求 驱动 程序 包含 有 它 自己 的 缓冲 空间 来 保存 到 来 的 

帧 ， 直 到 本 地 操作 系统 中 的 接收 进程 取 走 它们 。 如 果 缓 冲 空间 满 了 ， 帧 会 被 委 掉 ， 接 收 机 器 就 将 不 

能 接收 帧 。 

接收 者 需要 控制 帧 传输 的 速率 ， 尤 其 是 来 自 某 个 传输 者 的 。 实 现 流量 控制 的 最 简单 协议 是 停止 并 等 待 
(stop and wait) 协议 ,在 图 15-9 中 进行 了 概述 ， 它 相当 于 一 个 同步 的 IPC 发 送 操作 。 同 步 是 使 用 特殊 类 型 
的 报 文 ACK 来 实现 的 ， 它 没有 数据 域 。 计 时 可 用 于 防止 如 果 发 送出 去 的 帧 或 到 来 的 ACK MEK, REA 
永远 等 待 的 情形 。 如 果 超 时 之 前 发 送 者 没有 收 到 ACK 帧 ， 发 送 者 就 假定 传输 失败 。 数据 链 路 层 并 没有 假 
定 帧 能 够 被 可 靠 地 传输 。 





Sender transmits a frame; 
Sender sets a time-out on the transmission; 
Sender waits for an ACKnowledgment; 


if {Sender receives ACKnowledgment) continue; 
if (frame times-out) 
Retransmit timed-out frame; 


(a) 发 送 者 


Receiver accepts the frame; 
Receiver transmits the ACKnowledgment; 


(b) 接收 者 





图 15-9 停止 并 等 待 流量 控制 协议 
TE: 流 控 用 来 调整 帧 从 源 到 目的 的 流动 速率 ， 如 果 人 允许 源 以 任意 高 的 速率 发 送 报 文 ， 则 目的 主机 不 能 跟 上 到 来 
的 帧 〈 可 能 是 目的 主机 太 慢 ， 或 没有 足够 的 存储 空间 ) 。 在 源 主机 发 送 另 一 个 帧 之 前 ， 通 过 让 目的 主机 对 到 
来 帧 作出 反应 ， 停 止 并 等 待 协议 可 以 控制 帧 传输 速率 。 


滑动 窗口 协议 (sliding-window protocol) 是 停止 并 等 待 协议 的 一 般 化 ， 它 允许 发 送 者 在 收 到 一 个 ACK 
帧 之 前 可 以 发 送 N 个 帧 。 数 据 链 路 层 准备 发 送 某 个 数目 的 帧 到 另 一 个 机 器 中 时 ， 可 能 由 于 物理 层 或 一 个 
滑动 窗口 而 慢 下 来 ， 发 送 者 没有 方法 来 区 分 二 者 的 不 同 。 如 果 发 送 者 准备 发 送 后 面 的 N 个 发 送 帧 ， 在 收 
到 前 面 的 ACK 帧 之 前 它 会 停止 传输 ， 直 到 过 去 的 发 送 超时 ， 或 者 收 到 了 确认 帧 。 当 帧 在 接收 端 被 拒绝 时 ， 
最 后 该 传送 将 超时 ， 从 而 引起 帧 重 传 。 

错误 控制 用 来 保证 传送 的 幢 内 容 与 它 被 发 送 时 的 状态 相同 。 这 是 通过 对 帧 头 和 数据 进行 校 验 ， 并 且 将 
校 验 和 写 到 帧 尾 来 实现 的 。 接 收 者 对 收 到 的 帧 计算 相应 的 校 验 和 ， 如 果 计 算 的 校 验 和 与 发 送 的 不 同 ， 那 么 
就 假定 帧 没有 被 正确 地 接收 ， 帧 就 会 像 从 来 没有 被 传送 一 样 来 处 理 。 这 种 错误 检测 与 帧 拒绝 是 通信 子 网 可 
靠 性 处 理 的 必 不 可 少 的 手段 。 


15.3.3 ”当代 网 络 


在 美国 ， 当 代 的 计算 机 系统 中 少数 几 种 低层 网 络 技术 占有 主要 地 位 ， 包 括 以 太 网 、 令 牌 环 网 以 及 像 
FDDI 和 ATM 等 各 种 光纤 技术 。 本 节 重 点 介绍 以 太 网 、 令 牌 环 网 以 及 ATM 网 络 。 

以 太 网 

以 太 网 实现 了 局 域 网 物理 层 和 数据 链 路 层 协议 。 信 息 以 报 文 (等 疗 于 数据 链 路 帧 ) 的 形式 并 以 
10Mbps 的 信和 号 速率 在 以 太 网 上 被 持续 传送 。 在 新 版 本 的 以 太 网 上 ， 信息 传送 速率 标准 为 1Gbps。 . 

如 同 前 面 所 提 到 的 ， 以 太 网 物理 拓扑 是 多 点 访问 总 线 。 发 送 者 将 报 文 放 到 总 线 上 ， 一 -个 或 多 个 接收 者 
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可 以 通过 读 取 总 线 而 获得 报 文 。 以 太 网 逻辑 上 是 一 个 广播 媒介 ， 类 似 于 它 的 先驱 Aloha 网 中 的 无 线 电 厂 播 
[ Abramson, 1970]. 

以 太 网 的 独特 方面 是 它 实 现 了 共享 总 线 的 非 集中 控制 ， 它 使 用 带 有 冲突 检测 的 载波 侦 听 多 点 访问 协议 
(CSMAACD)。 局 域 网 中 并 不 保证 可 靠 性 ， 这 意味 着 在 物理 层 和 数据 链 路 层 中 可 能 会 丢失 报 文 一 一 例如 ， 
由 于 网 络 的 拥塞 。 以 太 网 进行 “最 大 努力 ”的 传送 ， 但 如 果 连 续 的 传送 企图 失败 ， 则 传送 就 可 能 失败 。 

当 发 送 者 希望 传送 一 个 报 文 时 ， 它 会 首先 侦 听 多 点 访问 总 线 。 如 果 有 另 一 个 主机 当前 正在 传送 ， 发 送 
者 就 会 等 待 载体 空闲 时 再 传送 报 文 。 当 总 线 空闲 时 一 一 检测 到 载体 空闲 ， 发 送 者 就 开始 传送 报 文 ， 在 写 的 
同时 读 取 总 线 。 

发 送 者 之 间 有 这 样 一 种 很 少 遇 到 的 情形 。 假 设 在 物理 共享 总 线 两 端的 发 送 者 同时 开始 传送 ， 每 一 个 都 
将 检测 到 载体 空闲 并 开始 传送 。 最 后 ， 信 和 号 会 相互 干扰 而 引起 信和 号 间 的 冲突 〈collision)。 每 个 发 送 者 最 终 
将 检测 到 冲突 的 发 生 ， 因 为 每 个 发 送 者 在 放置 位 信息 到 总 线 的 同时 也 在 读 取 总 线 。 这 种 方法 实现 了 非 集中 
控制 的 冲突 检测 ， 意 味 着 网 络 上 的 这 种 情形 会 被 每 个 在 冲突 发 生 时 使 用 总 线 的 主机 检测 到 (而 不 是 一 个 集 
中 的 信号 仲裁 器 )。 

发 生 帧 竞争 的 时 间 是 信号 从 共享 媒介 的 一 端 传 播 到 另 一 端 并 且 又 返回 过 程 所 要 求 的 时 间 ， 这 个 时 间 称 
为 时 间 槽 (slot time)。 如 果 发 送 者 企图 发 送 一 个 报 文 ， 为 了 保证 竞争 情形 不 会 发 生 并 且 报 文 将 不 会 遇 到 冲 
突 ， 发 送 者 必须 至 少 在 一 个 时 间 槽 内 监控 发 送 。 

在 这 一 点 上 ， 各 个 发 送 者 要 识别 出 共享 媒介 是 否 已 经 随意 地 分 配给 了 两 个 发 送 者 ， 并 且 只 要 一 个 发 送 
者 在 另 一 个 之 后 发 送 就 可 以 了 。 这 是 一 种 使 用 非 集中 式 算法 来 解决 共享 媒介 的 竞争 问题 的 方法 ， 每 个 发 送 
者 将 后 退 某 个 时 间 间 隔 并 且 随 后 又 试图 获得 共享 媒介 。 为 了 防止 在 后 退 时 间 过 后 又 发 生 冲突 ， 每 个 发 送 者 
将 选择 一 个 随机 的 时 间 数 作为 它 的 后 退 时 间 。 因 此 ， 如 果 两 个 发 送 者 冲突 ， 那 么 一 个 将 后 退 X 个 时 间 单 
位 ， 另 一 个 将 后 退 Y 个 时 间 单 位 ， 其 中 X 和 YY 很 可 能 是 不 同 的 ， 因 为 它们 是 随机 选取 的 。 很 明显 ， 时 间 
单位 应 该 是 时 间 槽 的 整数 倍 ， 因 为 时 间 槽 是 检测 到 冲突 的 最 小 时 间 单 位 。 

随 着 对 共享 媒介 竞争 的 增长 ， 冲 突 的 机 率 就 会 增长 。 而 且 网 络 处 于 饱和 状态 时 间 越 长 ， 两 个 或 更 多 发 
送 者 将 选择 相同 后 退 时 间 的 机 率 就 会 越 高 。 以 太 网 中 使 用 二 进 制 指数 后 退 (binary exponential backoff) 算 
法 来 处 理 这 个 问题 。 在 第 一 次 冲突 时 ， 发 送 者 后 退 0 或 1 个 时 间 槽 ， 在 第 二 次 冲突 时 ， 它 将 后 退 0、1 
或 3 个 时 间 槽 ， 并 且 在 第 i 次 连续 冲突 时 ， 它 将 后 退 的 时 间 在 0 到 2: -1 个 时 间 槽 之 间 。 发 送 者 由 于 冲突 
失败 的 次 数 越 多 ， 在 它 试图 发 送 之 前 将 需要 推迟 的 时 间 可 能 就 越 长 。 

令 牌 环 网 

令 牌 环 网 是 从 IBM 的 SNA 发 展 而 来 的 一 个 变种 。 在 物理 层 ， 该 局 域 网 的 运行 速率 可 达 16 Mbps。 在 
数据 链 路 层 ， 每 个 主机 从 一 个 有 N 个 非 负数 的 集合 中 被 分 配 一 个 逻辑 地 址 ， 主 机 i 能 够 接收 来 自主 机 i ~ 
1 的 数据 包 并 且 可 以 给 主机 i + 1 发 送 数据 包 (以 N 为 模 )。 物 理 层 上 的 主机 位 置 独 立 于 分 配给 主机 的 逻 
辑 地 址 ， 因 而 数据 链 路 层 可 以 在 某 种 任意 的 媒介 上 实现 一 个 逻辑 环 拓扑 结构 。 

逻辑 网 络 中 包含 有 单个 特殊 的 称 为 令 牌 〈token) 的 包 。 当 令 牌 包 到 达 主机 ; 时 ， 如 果 令 牌 是 “可 用 
的 "， 可 以 把 主机 i 要 发 送 给 主机 j 的 包 附 加 到 令 牌 包 后 并 发 送 到 主机 ; + 1; 如 果 令 牌 包 已 经 包含 有 信 
A, 那么 主机 i 必须 等 待 令 牌 为 空 。 当 令 牌 包 到 达 主 机 ; 时 ， 该 主机 接收 来 自主 机 i 的 信息 并 标记 令 牌 为 
主机 i “在 传输 ”。 当 又 到 达 主 机 ; 时 ， 它 再 次 标记 令 牌 为 “可 用 ”并 继续 将 令 牌 传送 到 主机 i + 1o 

令 牌 环 网 也 使 用 非 集中 控制 方法 ， 尽 管 与 以 太 网 相 比 它 使 用 更 可 管理 的 方式 。 以 太 网 允许 任何 主机 都 
可 以 根据 它 的 需要 来 获得 共享 媒介 ， 而 令 牌 环 网 通过 循环 传递 令 牌 来 实行 公平 使 用 共享 媒介 。 当 以 太 网 检 
测 到 冲突 时 ， 它 必须 从 冲 罕 的 情形 中 进行 恢复 ， 而 在 令 牌 环 网 中 不 会 发 生 冲 突现 象 。 

然而 ， 令 牌 环 网 依赖 于 每 个 主机 的 正确 运行 。 如 果 主 机 i 崩溃 了 ， 那 么 环 必须 重新 配置 ， 因而 主机 
i 一 1 将 直接 发 送 包 到 主机 i + 1， 并 且 它 必须 接收 这 个 包 。 

ATM 网 

HY MARX, (asynchronous transfer mode, ATM) 技术 的 发 展 来 自 于 电信 与 计算 机 产业 的 结合 ， 而 不 
像 以 太 网 和 令 牌 环 网 一 样 只 是 源 于 计算 机 产业 。 对 电信 与 计算 机 两 种 技术 的 继承 结果 是 ， 它 把 在 网 络 低层 
抽象 上 的 可 靠 性 传输 与 覆盖 相对 大 的 地 理 范围 网 络 的 可 能 性 结合 在 一 起 。 、 

ATM 网 络 中 采用 光纤 物理 层 ， 它 以 称 为 信 元 (cell) 的 有 53 个 字 节 的 报 文 进行 传输 。ATM 网 络 的 低 
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层 保证 信 元 的 可 靠 传输 ; 而 且 网 络 能 够 根据 通信 带宽 和 内 容 不 同 ， 而 提供 各 种 级 别 的 服务 质量 。 这 种 保证 
对 于 支持 像 音频 或 视频 流 这 样 的 连续 数据 流 具 有 无 法 估量 的 价值 ， 尤 其 是 在 一 个 多 媒体 应 用 中 数据 流 必 须 
要 求 同 步 的 时 候 。 

今天 ，ATM 技术 的 快速 发 展 依赖 于 相对 昂贵 的 交换 开关 ， 当 前 它们 不 能 以 ATM 在 未 来 几 年 内 所 计划 
的 速率 来 运行 。 今 天 ，ATM 网 的 传输 速率 至 少 在 500Mbps， 但 人 们 期 望 它 在 未 来 的 几 年 里 将 以 Gbps 级 的 
速率 来 运行 。 


15.4 网 络 层 


网 络 层 实现 了 网 络 的 网 络 ， 常 称 为 互联 网 。 在 互联 网 上 ， 在 一 个 网 络 上 的 主机 ， 如 同 图 15-10 中 网 络 
A 中 的 主机 X， 可 以 发 送 报 文 给 不 同 网 络 上 的 主机 ， 如 网 络 C 中 的 主机 Y。 这 需要 将 报 文 从 主机 X 通过 
网 络 A 路 由 到 主机 尺 ， 然 后 从 主机 R 通过 网 络 B 路 由 到 主机 S， 最 后 从 主机 S 通过 网 络 C 路 由 到 主机 Y。 
网 络 层 通过 在 互连网 络 上 提供 软件 对 报 文 进行 路 由 来 实现 互联 网 ， 这 需要 有 一 些 中 间 的 机 器 来 负责 保持 全 
局 互联 网 拓扑 结构 ， 并 在 需要 时 进行 报 文 的 转发 。 





图 15-10 互联 网 上 的 路 由 
注 : 报 文 可 以 在 网 络 上 进行 路 由 ,假定 有 一 个 计算 机 被 连接 到 两 个 或 多 个 网 络 上 。 跨 网 络 的 主机 负责 保持 有 关 
网 络 拓扑 的 信息 并 在 需要 时 转发 报 文 。 


网 络 层 使 用 网 络 和 主机 地 址 来 标识 互联 网 上 的 主机 。 你 可 以 将 网 络 层 地 址 想像 为 一 个 有 序 对 (net 间 ， 
host#). net# 是 标识 网 络 (互联 网 内 ) 的 一 个 整数 ，host# 是 一 个 整数 ， 它 标识 了 给 定 网 络 上 的 主机 。 我 
们 将 解释 地 址 表示 的 更 多 细节 ， 但 是 ， 现 在 注意 到 网 络 层 使 用 的 是 与 数据 链 路 层 完全 不 同 的 地 址 空间 。 

网 络 层 定义 了 它 自 己 的 报 文 格式 ， 不 同 于 数据 链 路 层 帧 格式 。 报 文 头 包含 了 源 计算 机 的 〈net# ，host 
+) 地 址 以 及 目的 计算 机 的 〈net# ，host#) 地 址 。 在 我 们 的 例子 中 ， 网 络 A 上 的 主机 X (A，X)， 寻 址 
网 络 C 上 的 主机 Y (C，Y)。 在 网 络 层 设计 中 ， 主 机 X 软件 通常 情况 下 并 不 知道 (C, Y) 的 数据 链 路 
层 帧 中 的 地 址 ， 因 为 它 没有 连接 到 网 络 C 上。 相反， 主机 X 将 网 络 报 文 组 织 成 数据 链 路 层 帧 ， 然 后 将 帧 
发 送 给 同一 网 络 (网 络 A) 上 的 主机 R。 现 在 ， 主 机 R 将 网 络 报 文 路 由 到 网 络 B 内 的 (B, S) 等 。 

通常 情况 下 ， 可 以 将 网 络 想像 为 一 个 图 : 它 由 一 组 结 点 和 边 互 连 而 成 。 例 如 ， 在 局 域 网 中 ， 网 络 中 的 
结 点 是 主机 ， 逻 辑 网 中 的 边 是 通信 子 网 。 在 互联 网 中 ， 结 点 是 一 个 完整 的 网 络 ， 并 且 边 对 应 为 用 于 连接 两 
个 或 多 个 网 络 的 主机 。 例 如 ， 主 机 R 用 于 连接 网 络 A 和 B， 主 机 R 逻辑 上 是 A 结 点 和 B 结 点 之 间 的 一 条 
边 。 同 样 地 ， 主 机 S 是 网 络 B 和 网 络 C 间 的 一 条 边 。 假 定 主机 R AS 用 网 络 层 软 件 进行 配置 来 路 由 报 文 ， 
它们 会 将 信息 从 一 个 互联 网 结 点 移动 到 另 一 个 互联 网 结 点 ， 网 络 A、B、C 就 是 互联 网 上 的 结 点 。 一 个 连 
接 两 个 或 多 个 网 络 的 主机 (并 且 它 将 进行 报 文 的 路 由 ) 被 称 为 网 关机 器 (gateway machine), ` 

一 次 特定 的 网 络 层 传输 可 能 包含 有 跨越 几 个 网 络 的 几 跳 (hop) (例子 中 有 3 跳 ) ， 每 一 跳 相 应 于 在 正 
常 的 主机 和 网 关 间 或 网 关 冯 的 数据 链 路 层 的 一 次 帧 传输 。 数 据 链 路 层 传输 的 细节 (例如 ， 所 涉及 跳 的 数 
A) 对 于 网 络 层 接口 以 上 是 透明 的 。 网 络 层 客户 软件 可 以 使 用 (net 间 ，host# ) 地 址 将 报 文 发 送 到 不 同 网 
络 上 的 不 同 主机 上 。 

我 们 来 看 看 路 由 ， 假 定 网 络 A 上 的 主机 X 上 的 进程 需要 将 信息 传递 到 网 络 C 上 的 主机 Y 上 的 进程 中 ， 
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路 由 过 程 如 下 ， 
m 建立 有 目的 地 址 (Network _ C，Host _Y) 的 网 络 报 文 ， 然 后 在 本 地 操作 系统 中 ， 进 行 系统 调用 去 调 
E 本 地 主机 将 网 络 报 文 拷贝 到 数据 链 路 层 帧 中 ， 然 后 将 它 
发 送 到 连接 到 网 络 的 主机 R 上 。 


E 当主 机 R 接 到 来 自 网 络 A 上 主机 X 的 数据 链 路 层 帧 时 ， 
它 重新 从 帧 中 获得 报 文 ， 查 询 网 络 报 文 和 路 由 表 ， 确 定 
下 一 跳 的 目的 地 ， 然 后 将 报 文 形成 的 帧 传输 到 网 络 B 上 


的 主机 S 中 。 目的 地 : (Internet 地 址 ) 


B 当主 机 S 接收 到 来 自主 机 R 的 帧 时 ， 它 采取 相同 的 算 
法 ,然而 ， 由 于 目的 地 与 它 在 同一 个 网 络 中 ， 因 而 它 只 Hei 


完成 一 个 正常 的 数据 链 路 层 传输 就 可 以 了 。 

当 报 文 经 过 互联 网 的 每 一 跳 时 ， 它 都 需要 被 封装 到 不 同 的 
数据 链 路 层 帧 中 〈 见 图 15-11)。 网 络 报 文 地 址 对 数据 链 路 层 是 完 
全 不 可 见 的 ， 因 为 它们 仪 出 现在 数据 链 路 层 帧 数据 域 中 的 报 文 
头 中 。 当 网 关 从 帧 中 得 到 报 文 时 ， 由 互联 网 地 址 来 确定 下 一 跳 
的 地 址 。 





15.4.1 Internet 寻 址 图 15-11 网 络 层 报 文 的 例子 

如 上 面 所 描述 的 ， 网 络 层 为 网 络 报 文 引进 了 新 的 名 字 空 。 RU 
间 ， 每 个 主机 有 一 个 如 (net# ，host# ) 的 地 址 。 流 行 的 网 络 数据 链 路 层 帧 里 。 网 关 的 网 络 层 软 件 
层 地 址 模型 是 取 自 ARPA 网 的 IP 协议 。 当 前 主要 的 IP 版 本 对 网 络 报 文 进行 解释 ， 确 定 报 文 路 由 
(IPv4) 使 用 32 位 的 地 址 来 指定 一 个 主机 和 网 络 。 现 在 IPv4 逐 的 目的 地 ， 然 后 将 它 封 装 进 网 络 的 数 
渐 在 被 IPv6 所 取代 ，IPv6 使 用 128 位 的 地 址 。 在 IPv4 F, 一 据 链 路 层 帧 中 并 进行 报 文 的 转发 。 


个 IP 地 址 属于 四 种 不 同 格式 之 一 ， 取 决 于 系统 管理 员 如 何 配 

置 他 们 的 互联 网 络 部 分 。 例 如 ， 一 个 互联 网 可 能 网 络 数目 较 少 ， 而 每 一 个 网 络 主机 数目 很 多 ; 或 者 网 络 数 
目 很 多 ， 而 每 个 网 络 主机 数目 很 少 。 那 么 A 类 全 地 址 可 用 于 第 一 种 配置 中 ,而 C 类 IP 地 址 可 用 于 第 二 种 
情形 。 

IP 地 址 的 类 型 是 由 地 址 中 两 个 非常 重要 的 位 的 设置 来 确定 的 。A 类 地 址 使 用 位 00; B 类 地 址 使 用 01; 
C 类 地 址 使 用 10; DD 类 地 址 (加 上 实验 用 的 地 址 ) 标志 域 设 为 11 [Stevens and Wright，1995]。 例 如 ， 假 
定 我 们 有 一 个 32 位 的 中 地址 0x807BEA0C， 我 们 常常 用 点 分 十 进 制 符号 来 写 32 位 地 址 : 首先 将 32 位 分 成 
4 个 字 节 0x 80 7B FA 0C。 下 一 步 ， 将 每 个 字 节 转换 成 十 进 制 数 ， 8016 = 12810, 7Big = 12310，FAle = 23410, 
OCs = 1210。 最 后 ， 将 这 4 个 十 进 制 数 写成 128.123.234.12 来 表示 32 位 数 。 当 我 们 看 见 一 个 点 分 十 进 制 IP 
地 址 ， 第 一 个 数 范围 为 128 一 191， 则 是 一 个 C 类 地 址 : 前 两 个 最 重要 的 位 是 标志 位 ， 后 22 位 是 网 络 号 ， 
最 后 8 位 是 主机 号 。 从 地 址 中 得 到 标志 位 后 ， 我 们 知道 IP 地 址 的 网 络 地 址 为 0.123.234 (十 六 进 制 表 示 为 
Ox007BEA), 3È 3197810o。 主 机 号 是 最 低 的 有 意义 的 字 节 或 1210。 

图 15-12 显示 了 信息 如 何 被 发 送 给 连接 到 网 络 上 的 计算 机 。NIC 硬件 可 以 识别 48 位 数据 链 路 层 帧 地 址 
0x80C31M80837E。 同 一 网 络 上 的 其 他 计算 机 上 的 数据 链 路 层 想 要 发 送信 息 给 那 台 计 算 机 , 它 将 发 送 一 个 帧 
给 0x80C31M80837E。 数 据 链 路 层 帧 的 有 效 载荷 数据 是 网 络 报 文 。 它 被 编 址 到 32 位 的 网 络 层 地 址 
(0.123.234.12) ,我 们 记 为 C 类 下 地 址 128.123.234.12。 在 网 络 层 的 软件 使 用 IP 地 址 ,如 果 信 息 被 发 送 到 地 
址 0x80C31380837E, 则 计算 机 的 NIC 会 读 取信 息 。 像 任何 其 他 的 输入 设备 一 样 ,NIC 对 信息 进行 缓冲 直到 设 
备 驱动 程序 将 它 拷贝 到 主 存 中 。 一 旦 它 被 拷贝 ,网 络 层 软 件 将 会 从 数据 链 路 层 帧 中 提取 网 络 报 文 ,并 读 取 它 
的 目的 地 址 (128.123.234.12)。 因 为 它 是 本 机 器 的 IP 地 址 ,网 络 层 对 报 文 进行 缓冲 ,直到 客户 软件 读 取 它 。 

所 有 网 络 层 以 上 的 软件 都 通过 使 用 一 个 互联 网 地 址 ,来 访问 在 同一 个 网 络 以 及 互联 网 上 的 其 他 机 器 。 
(以 后 你 会 看 到 ,传输 层 扩展 了 IP 地 址 空间 ,但 是 它 仍 然 使 用 网 络 层 定义 的 (net# ,host# )。) 网 络 层 软件 使 
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应 用 软件 能 够 定位 在 它 自 己 的 局 域 网 以 及 互联 网 上 的 主机 ,在 网 关机 器 上 网 络 层 (路 由 ) 软 件 能 够 转发 报 文 。 


数据 链 路 层 由 rC Na 
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网 络 层 报 文 






图 15-12 使 用 数据 链 路 和 网 络 层 地 址 


注 : 网 络 信息 是 作为 数据 链 路 层 帧 发 送 给 机 器 的 。 如 果 发 送 者 在 使 用 网 络 层 协议 ， 则 帧 包含 一 个 网 络 层 报 文 ， 
它 可 以 被 接收 机 器 的 网 络 层 软件 解释 。 


15.4.2 路 由 


路 由 技术 是 直接 从 最 初 的 ARPA 网 中 发 展 而 来 的 。 图 15-13a 说 明了 最 初 的 ARPA 网 的 结构 风格 , 它 是 
一 个 大 型 主机 的 集合 ,每 个 主机 带 有 一 个 专门 的 接口 消息 处 理 器 (IMP) 的 网 络 前 端 机 。IMP 完成 存储 并 转 
发 的 路 由 功能 而 无 需 主 机 的 干涉 。 在 建立 ARPA 网 的 时 候 ,IMP 相当 于 一 个 高 端 通道 处 理 机 。 今天, 它 的 功 
能 可 能 是 在 一 个 设备 控制 器 中 实现 ,或 者 更 为 普遍 的 是 ,在 一 个 设备 控制 器 中 实现 并 且 网 络 软 件 作 为 操作 系 
统 的 一 部 分 在 执行 。 在 图 15-13a 中 ,IMP 使 用 采用 IP 协议 的 点 到 点 通信 线路 进行 连接 。 随 着 局 域 网 技术 的 
发 展 ,ARPA 网 中 的 主机 开始 被 带 有 IMP 的 一 组 更 小 主机 组 成 的 局 域 网 所 取代 ,这 就 发 展 成 为 当代 ARPA 
网 和 互联 网 的 结构 ( 见 图 15-13b)。 在 最 初 基于 广域网 的 ARPA 网 中 ,所 使 用 的 路 由 技术 发 展 成 为 如 图 15- 
13b 所 示 的 当代 互联 网 中 所 使 用 的 IP 版 本 。IMP 网 关 完 成 最 初 ARPA 网 中 的 IMP 所 实现 的 功能 。 





a) 传统 ARPA 网 配置 b) 今 天 的 ARPA 网 


图 15-13 ARPA 网 中 的 路 由 
注 ; ARPA 网 是 一 个 前 沿 研究 网 络 。 如 a) 部 分 所 示 ， 最 初 的 ARPA 网 中 的 结 点 是 有 IMP 前 端的 大 型 计算 机 。 随 着 大 
型 计算 机 被 具有 许多 主机 的 LAN 所 取代 ，IMP 也 演化 成 了 网 关 ， 具 有 可 以 通过 互联 网 路 由 网 络 报 文 的 功能 。 


图 15-14 中 表示 了 从 基于 IMP 的 ARPA 网 技术 到 带 有 网 关 的 当代 互联 网 技术 的 发 展 。 由 于 最 初 的 IMP 
功能 现在 被 放 在 一 个 设备 中 并 配备 网 络 层 软件 来 实现 ， 因 而 互联 网 中 的 网 络 通 常 可 以 被 认为 是 通过 一 组 网 
关 取 代 通 信 线 路 所 进行 连接 的 。 由 于 很 多 单个 的 网 络 在 物理 上 是 隔离 的 (以 几 英 里 或 几 百 英里 计 )， 因 而 
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一 个 互联 网 中 将 包含 很 多 对 半 网 关 half-gateway)。 一 个 半 网 关机 器 连接 到 网 络 的 一 端 并 且 通 过 一 个 ARPA 
网 风格 的 长 距离 、 点 到 点 的 通信 线路 连 到 另 一 端 。 一 对 
半 网 关 使 用 一 条 点 到 点 的 线路 连接 而 提供 一 个 全 网 关 的 
功能 ， 其 中 信息 在 两 个 半 网 关 之 间 的 通信 线路 上 传输 。 

网 络 层 软件 的 主要 任务 是 处 理 路 由 ， 甚 至 在 非 网 关 
的 主机 上 。 路 由 的 特殊 风格 取决 于 互联 网 的 风格 ， 但 基 
本 的 任务 是 相同 的 : 

B 发 送 主机 使 用 一 个 本 地 的 路 由 表 选 择 第 一 跳 的 目 

的 地 。 这 个 表 不 需要 许多 条 目 ， 但 它 至 少 需要 包 

含 一 个 本 地 网 关 的 地 址 。 如 果 目 的 地 和 源 在 相同 

的 网 络 上 ， 报 文 将 被 直接 发 送 到 目的 地 。 

u 发 送 者 将 报 文 封装 成 帧 ， 然 后 把 它 传输 到 网 关 或 

目的 主机 上 。 

a 中 间 的 结 点 将 帧 还 原 成 报 文 ， 并 使 用 它 的 路 由 表 

来 确定 报 文 是 否 应 该 被 发 送 到 另 一 个 中 间 结 点 ， 

或 者 报 文 已 经 到 达 了 目的 地 。 如 果 报 文 需要 继续 图 15-14 基于 LAN 的 互联 网 

路 由 ， 它 使 用 路 由 表 中 的 信息 选择 下 一 跳 的 机 器 。 ” 注 : 当代 的 互联 网 是 从 ARPA 网 发 展 过 来 的 ， 

a 网 关 将 报 文 封装 成 帧 ， 发 送 到 网 络 中 或 者 发 送 给 尽管 不 再 有 IMP 和 大 型 机 。 在 用 网 关 来 互 

本 地 主机 。 连 地 理 上 分 离 的 网 络 时 ， 网 关 被 分 成 两 个 

互联 网 可 以 变 大 ， 这 表明 了 路 由 表 也 会 变 大 。 如 果 a AN MERARI 
每 个 主机 中 都 保存 有 一 个 路 由 表 来 表示 如 何 到 达 互 联网 eo ° 
中 的 其 他 主机 ， 那 么 可 能 表 的 大 小 对 于 互联 网 上 的 主机 
来 说 太 大 以 致 不 可 行 。 当 然 ， 任 何 一 个 主机 不 可 能 需要 与 一 个 非常 大 网 络 中 的 其 他 所 有 主机 进行 通信 。 
(国际 互联 网 有 成 千 上 万 个 网 络 ， 主 机 分 布 在 全 世界 ， 参 见 下 一 小 节 。) 在 IP 实现 中 ， 主机 可 以 只 在 它 的 
路 由 表 中 保存 目标 主机 的 一 个 子 集 。 因 为 Internet 一 直 在 改变 它 的 拓扑 结构 ， 主 机 的 路 由 表 必 须 周期 性 地 
更 新 ， 本 地 的 网 关机 器 就 可 以 完成 更 新 。 

这 种 策略 能 应 用 在 网 关机 器 中 吗 (允许 它 有 部 分 的 路 由 表 ， 并 让 它 周期 性 地 更 新 )? 当 网 关上 只 有 一 个 
不 完全 的 路 由 表 时 ， 它 能 够 完成 互联 网 的 路 由 吗 ? 假定 网 络 中 的 所 有 拓扑 结构 都 出 现在 从 任意 主机 出 发 可 
以 到 达 的 某 个 网 关 集 合 中 ， 那 么 回答 就 是 肯定 的 (参见 Stevens [1994, Ch, 3] ). E PAH, 网关 有 
自己 单独 的 协议 来 更 新 路 由 表 。 


15.4.3 网络 层 的 使 用 


基于 局 域 网 的 互联 网 拓扑 结构 ， 在 商业 化 的 世界 里 被 广泛 接受 并 形成 一 个 更 大 的 全 球 可 访问 的 互联 
网 ， 通常 叫做 因特网 (Intemet)。(Internet 使 用 大 写字 母 开头 是 为 了 把 国际 互联 网 与 其 他 采用 相同 技术 的 
互联 网 区 分 开 来 .) 通过 因特网 ， 位 于 Colorado 的 Boulder 的 一 个 主机 中 运行 的 一 个 进程 ， 可 以 通过 用 于 与 
同一 个 实验 室 中 的 机 器 中 的 进程 交换 报 文 的 同一 种 程序 ， 与 位 于 法 国 巴 黎 的 另 一 机 器 中 的 进程 交换 报 文 。 

网 络 层 技术 也 允许 用 户 互 连 不 同类 型 的 数据 链 路 层 局 域 网 一 一 例如 ， 一 个 以 太 网 和 令 牌 环 网 。 由 于 每 
个 网 关 都 作为 两 个 或 多 个 局 域 网 的 一 台 主 机 ， 它 必须 包括 它 所 连接 的 局 域 网 的 物理 层 和 数据 链 路 层 协 议 。 
网 关 接 收 一 个 网 络 设备 上 具有 IP 报 文 的 数据 链 路 层 帧 ， 然 后 将 内 容 拷 贝 到 不 同 网 络 上 的 帧 中 ， 这 样 网 关 
有 效 地 完成 了 承载 报 文 媒 体 的 转换 ， 这 称 之 为 媒介 转换 (media translation)。 当 来 自 一 个 局 域 网 的 报 文通 
过 网 关 传 递 到 另 一 个 局 域 网 时 ， 报 文 可 能 不 得 不 重新 格式 化 ， 或 者 转换 成 另外 的 形式 来 适应 目标 局 域 网 的 
协议 。 这 种 网 关机 器 除了 进行 正常 的 媒介 转换 外 ， 还 完成 了 协议 转换 。 媒 介 转 换 在 网 关中 是 很 普通 的 ， 但 
是 协议 转换 很 有 技巧 ， 所 以 它 并 不 常常 使 用 。 

理论 上 ， 使 用 网 络 层 的 特征 和 功能 作为 应 用 程序 的 基础 是 可 行 的 。 但 实际 上 ， 由 于 实现 接口 包含 有 很 
多 保护 的 漏洞 ，IP 通常 只 对 管理 者 许可 的 程序 是 可 访问 的 。 传 输 层 UDP 协议 (在 下 一 节 中 描述 ) 提供 了 
一 个 类 似 于 IP 的 接口 ， 它 的 接口 更 适合 于 应 用 程序 使 用 。 
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在 网 络 层 所 实现 的 应 用 ， 把 网 络 看 作 一 个 只 尽 最 大 努力 传送 报 文 的 不 可 靠 报 文 网 络 。 在 这 种 不 可 靠 网 
络 中 的 用 户 ， 必 须 为 报 文 可 能 在 某 个 低层 中 丢失 的 情形 进行 额外 处 理 一 一 例如 ， 由 于 数据 链 路 层 中 的 校 验 
和 失败 或 者 在 物理 层 中 的 冲突 。 应 用 程序 也 必须 对 报 文 流 因 为 路 由 到 不 同 的 路 径 而 乱 序 进行 处 理 。 而 传输 
层 使 用 标准 的 机 制 提供 了 上 述 对 可 靠 性 的 额外 处 理 ， 所 以 用 户 通 常 使 用 传输 层 功能 。 





示例 : 在 Internet 上 的 延迟 

随 着 WWW 的 广泛 使 用 ， 人 们 对 流 内 容 的 需求 日 益 增 长 : 被 发 送 的 内 容 作 为 信息 流 而 不 是 作为 完全 
的 文件 。 其 思想 就 是 请 求 流 内 容 的 机 器 会 以 预定 义 的 速率 接收 内 容 。 当 它 接收 到 一 部 分 内 容 时 ， 会 将 这 部 
分 内 容 呈 现 给 用 户 〈 例 如 ， 作 为 音频 /视频 表示 )， 当 这 部 分 信息 呈现 给 用 户 后 ， 它 会 丢弃 这 部 分 信息 。 这 
前 正在 播放 的 部 分 。 这 种 能 力 可 以 允许 电影 服务 
器 将 电影 作为 流 内 容 来 发 送 给 家 用 计算 机 ， 家 用 计算 机 不 用 将 电影 存储 在 自己 的 文件 系统 中 。 

流 视频 依赖 于 视频 流 内 容 的 固定 发 送 速率 。 如 果 流 发 送 得 太 快 ， 家 用 计算 机 没有 空间 来 存储 它 ， 如 果 
流 发 送 得 太 慢 ， 流 的 内 容 不 会 正确 地 呈现 给 用 户 。 例 如 ， 如 果 是 音频 流 ， 播 放 机 器 会 断断续续 播放 音乐 。 

虽然 流 内 容 播放 是 WWW 的 一 个 重要 的 商业 产品 ， 它 与 传统 的 IP 网 络 传送 【WWW 使 用 它 作为 底层 
传送 协议 ) 本 质 上 是 不 兼容 的 。 卫 不 能 保证 发 送 速率 ， 因 为 传送 IP 报 文 的 时 间 是 由 报 文 延迟 决定 的 ， 但 
是 这 是 不 确定 的 。IP 允许 信息 的 灵活 路 由 ， 但 是 它 不 能 保证 有 限 的 传送 延迟 。 

当然 ， 商 业 公司 很 快意 识 到 这 种 应 用 的 重要 性 ， 所 以 IPv6 为 保证 有 限 的 传送 延迟 提供 了 支持 ， 并 因 
此 支持 流 视 频 。 这 是 当前 正在 发 展 的 一 个 网 络 技术 的 例子 。 








15.5 传输 层 


传输 层 为 一 个 主机 将 信息 传送 到 另 一 个 主机 提供 了 一 种 可 靠 的 、 端 到 端的 机 制 。 使 用 传输 层 ， 程 序 员 
不 需要 关心 报 文 或 者 互联 网 的 细节 。 传 输 层 创建 了 一 个 新 的 网 络 通信 抽象 ， 它 包 括 下 述 一 系列 的 功能 : 

m 扩展 的 地 址 空间 超出 了 互联 网 的 地 址 空间 ， 因而 传输 进程 可 以 访问 在 一 个 远程 网 络 上 的 远程 主机 中 
的 一 个 特定 端口 ， 该 端口 可 能 是 一 个 应 用 进程 的 信箱 、 一 个 UNIX 的 管道 端 ， 或 者 其 他 用 于 提供 一 
个 进程 与 其 他 进程 通信 的 操作 系统 实体 。 

© 传输 层 给 应 用 程序 提供 了 各 种 数据 类 型 ， 包 括 数据 报 、 网 络 消息 以 及 字 节 流 。 由 于 ARPA 网 的 用 户 
数据 报 协议 (User Datagram Protocol, UDP) 和 传输 控制 协议 (Transmission Control Protocol, TCP) 
的 流行 , 尽管 技术 上 ARPA 网 协议 没有 遵循 ISO 的 OSI 传输 层 标 准 ， 但 它们 与 遵循 标准 的 协议 提供 
了 相同 的 功能 。 通 过 使 TCP 和 UDP 适应 运行 于 遵循 ISO 标准 的 数据 链 路 层 上 ， 可 以 使 TCP 和 
UDP 与 ISO 的 OSI 模型 相 一 致 。 

a 在 传输 层 提供 可 靠 的 通信 ( 面 对 不 可 靠 的 网 络 层 操 作 )。 


15.5.1 通信 端口 


网 络 层 软件 使 得 机 器 之 间 能 够 交换 信息 ， 但 是 网 络 层 的 地 址 空间 并 不 能 说 明 机 器 内 的 进程 和 线程 。 我 
们 必须 扩展 网 络 层 地 址 空间 ， 人 允许 一 个 进程 说 明 一 个 代表 它 自 己 的 一 个 编 址 ， 从 而 它 可 以 从 中 得 到 其 他 进 
程 传送 的 信息 。 这 类 似 于 一 个 街道 的 地 址 、 一 个 邮箱 、 一 个 电话 号 码 或 者 一 个 声音 信箱 。 多 用 户 和 多 进程 
的 机 器 要 求 在 每 个 机 器 之 中 有 大 量 的 各 自 通信 地 址 ， 因 此 传输 层 提供 了 通信 端口 来 扩展 互联 网 地 址 。 

图 15-15 表现 了 主机 X 在 网 络 层 所 使 用 的 唯一 的 地 址 (net# ，host# )， 在 机 器 内 有 大 量 的 通信 端口 
也。 端口 通常 作为 操作 系统 的 资源 由 传输 层 进 行 管理 。 如 果 进 程 想 使 用 端口 ， 它 必须 与 请 求 其 他 任意 串 行 
可 重用 资源 一 样 来 请 求 使 用 端口 。 一 旦 一 个 端口 被 分 配 ， 它 可 以 经 由 传输 层 用 于 发 送 和 接收 网 络 报 文 。 

假定 IP 地 址 为 (nett, host#) 的 主机 上 的 进程 使 用 端口 port 间 作为 它 的 发 送 点 。 互 联网 上 的 其 他 进 
程 通过 使 用 传输 层 地 址 (net# ，host# ，port# ) 来 将 信息 发 送 给 那个 特定 的 进程 ， 这 意味 着 接收 者 的 端 
口号 必须 以 某 种 方式 让 任何 想 发 送信 息 给 它 的 进程 知道 。15.6 节 中 解释 了 支持 这 种 请 求 的 一 般 技术 。 现 
在 可 以 明确 ， 在 一 个 进程 能 够 从 网 络 中 接收 信息 之 前 ， 它 必须 (1) 要 有 接收 信息 的 端口 ，(2) 要 让 发 送 
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信息 的 进程 知道 该 端口 。 一 般 情 况 下 ， 端 口 的 创建 和 将 端口 绑 定 到 一 个 互联 网 地 址 是 独立 的 操作 。( 在 传 
输 层 协议 中 ,我们 说 进程 请 求 建立 一 个 端口 ， 而 不 是 端口 被 分 “网络 Y 上 的 主机 
配给 进程 ， 因 为 操作 系统 可 以 动态 地 创建 端口 或 从 静态 池 中 指 
派 一 个 端口 。) 在 本 章 最 后 的 实验 练习 15.1 中 ， 说 明了 Berke- 
ley UNIX 中 的 网 络 接口 是 如 何 使 用 的 ， 即 如 何 创建 一 个 套 接 
字 ， 并 将 它 绑 定 到 一 个 互联 网 地 址 上 。 


15.5.2 数据 类 型 


ARPA 网 传输 层 支持 两 种 主要 的 数据 类 型 ; 数据 报 和 字 节 
流 。 数 据 报 除了 使 用 包含 三 部 分 的 传输 层 地 址 外 ， 其 余部 分 与 
网 络 层 的 报 文 类 似 。 字 节 流 允许 两 个 不 同 机 器 上 的 进程 通过 传 
送 和 接收 持续 的 字 节 流 信息 来 交换 信息 ， 它 类 似 于 UNIX 和 
Windows 中 的 管道 。 由 于 消息 传递 被 广泛 用 于 进程 间 通 信 ， 因 
而 传输 层 也 可 以 实现 支持 消息 的 协议 ， 类 似 于 对 UNIX 文件 或 





管道 中 的 字 节 流 进行 扩展 的 消息 传递 (参见 第 9 章 )。 图 15-15 通过 端口 扩展 地 址 空间 
UDP 数据 报 $: 一 个 通信 端口 (图 中 的 “P”) 是 特定 
UDP 在 传输 层 传送 块 信息 。 数 据 报 是 在 网 络 中 传递 的 块 信 (net #, host #) 机 器 中 的 网 络 传输 


息 (暗示 了 数据 报 封装 在 网 络 报 文中 )。 在 UDP 中 ， 一 个 数据 a eia mee eee 
报 可 能 比 网 络 层 报 文 要 大 ， 协 议 需要 将 大 数据 报 分 段 ， 使 得 它 Me 
们 可 以 作为 网 络 层 报 文 进行 传递 ， 并 在 接收 机 器 的 传输 层 上 重建 数据 报 。 网 络 层 将 数据 报 传送 到 互联 网 上 
的 任意 主机 而 无 需 保 证 传送 的 可 靠 性 ， 即 UDP 并 不 保证 任 一 数据 报 都 被 传送 到 目的 地 。 然 而 ，UDP 能 保 
证 如 果 数据 报 的 一 部 分 被 传送 了 ， 那 么 数据 报 的 其 他 部 分 都 将 被 传送 一 数据 报 分 段 和 重建 是 可 靠 的 。 

数据 报 服务 提供 了 一 级 网 络 抽象 ， 它 类 似 于 对 存储 设备 的 块 /O 抽象 。 如 果 程 序 员 认为 网 络 的 基本 实 
现 以 及 低层 对 应 用 程序 来 说 是 可 靠 的 ， 就 可 以 使 用 像 UDP 这 种 协议 的 数据 报 来 编写 应 用 软件 。 然而， 与 
本 地 存储 设备 操作 不 同 ， 网 络 层 通 信 可 能 会 丢失 信息 。 例 如 ， 网 络 可 能 在 数据 链 路 层 丢失 一 个 帧 ， 或 者 可 
能 在 网 络 层 丢失 一 个 报 文 。UDP 没有 规定 对 委 失 现象 进行 通知 或 者 改正 ， 可 靠 性 完全 是 应 用 程序 的 责任 。 
这 导致 在 要 求 可 靠 性 传输 的 应 用 中 (如 在 大 多 数 的 应 用 情形 中 ) 没有 使 用 UDP 协议 的 。 然 而 ，UDP 可 以 
用 于 传送 音频 或 视频 信息 ， 应 用 程序 通常 在 使 用 它 接收 信息 之 前 进行 一 些 内 插 操 作 。 

操作 系统 (在 网 络 层 之 上 ) 对 数据 报 服务 的 支持 是 很 小 的 一 一 即 在 和 名义 上 管理 地 址 的 端口 部 分 ， 而 大 
多 数 的 功能 逻辑 上 是 属于 网 络 层 的 部 分 。 

字 节 流 

传输 控制 协议 TCP 实现 了 在 一 个 互联 网 上 不 同 主机 的 进程 之 间 的 字 节 流通 信 (这 些 字 节 流 有 时 称 之 
为 连接 〈connections) ， 有 时 称 之 为 唐 电 路 (virtual circuits) ) 。 在 两 个 进程 之 间 建 立 一 个 字 节 流 之 前 ， 它们 
必须 愿意 进行 通信 。 两 个 进程 在 建立 字 节 流 的 过 程 中 具有 不 同 的 角色 ， 主 动 进 程 通过 在 交换 信息 之 前 向 被 
动 接收 者 进程 请 求 一 个 连接 来 建立 一 个 字 节 流 。 如 果 被 动 接收 者 接收 了 请 求 ， 那 么 就 在 两 个 进程 之 间 建 立 
一 个 连接 (或 虚 电 路 )。 一 旦 连接 建立 起 来 ， 发 送 者 就 可 以 写 可 变 大 小 的 块 到 字 节 流 中 ， 接 收 者 从 连接 中 
读 取 可 变 大 小 的 块 而 获得 信息 。 在 TCP 中 ， 读 块 的 大 小 并 不 一 定 与 写 的 大 小 要 -- 致 。 因 为 字 节 流 是 在 
对 进程 间 创建 的 ， 不 必要 在 连接 上 传送 的 每 份 信息 中 都 包括 有 目的 地 址 。 


15.5.3 可 靠 的 通信 


数据 报 感觉 上 类 似 于 电报 ， 每 个 报 文 都 有 自己 的 地 址 并 且 被 发 送 到 接收 者 。 字 节 流 暗中 假定 有 可 靠 的 
报 文 传送 ， 可靠 性 通过 使 用 一 个 通信 模型 可 以 获得 ,与 电报 相 比 应 该 说 它 与 电话 有 更 多 相似 之 处 。 电 话 系 
统 在 通信 中 使 用 了 连接 的 概念 ， 在 交换 信息 之 前 ， 呼 叫 者 通过 对 被 叫 者 的 呼叫 来 建立 连接 ， 一 旦 连接 已 经 
建立 起 来 ， 呼 叫 者 就 不 再 需要 地 址 信息 ， 因 为 连接 已 经 为 呼叫 者 与 被 叫 者 指定 了 通信 端口 。 

电话 使 用 的 这 种 技术 类 似 于 前 面 小 节 中 所 提 到 的 TCP 虚 电 路 的 技术 。 如 果 两 个 进程 同意 在 它们 之 间 
建立 一 个 虚 电路 ,那么 它们 中 的 任 一 个 就 可 以 通过 虚 电 路 来 传送 字 节 流 , 而 无 需 关心 报 文 的 边界 。 而 且 ， 
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TCP 保证 所 有 包含 字 节 流 的 报 文 将 按照 它们 被 发 送 的 次 序 进行 传送 ,这 是 通过 对 字 节 流 中 的 每 个 报 文 附加 
一 个 序列 号 来 实现 的 。 传 输 层 使 用 一 个 对 等 的 协议 来 生成 并 检测 序列 号 ,保证 没有 报 文 被 丢失 或 乱 序 传送 。 

打开 虚 电 路 要 求 发 送 者 与 接收 者 都 同意 交换 信息 。 如 前 所 述 ， 任 意 线程 若 打算 与 另 一 个 线程 进行 通 
信 ， 必 须 先 建立 一 个 端口 ， 另 一 线程 也 要 有 一 个 传输 点 (net# ，bhost# ，port# ) 来 连接 虚 电 路 ， 在 两 个 
线程 都 建立 起 端口 后 ， 它 们 中 的 一 个 一 一 主动 线程 ， 请 求 建立 虚 电 路 ， 被 动 线程 ( 即 接收 者 ) 可 以 接收 或 
拒绝 到 指定 通信 端口 的 呀 电路 连接 请 求 。 

为 了 对 字 节 流 进行 流量 控制 ， 传 输 层 连接 使 用 了 握手 协议 〈 如 15.3 节 所 描述 的 ) 。 这 种 协议 有 助 于 保 
证 报 文 不 会 丢失 ， 因 为 委 失 的 报 文 将 会 引起 重 传 。 当 像 滑 动 窗口 这 种 协议 被 用 于 传输 层 中 时 ， 它 管理 在 两 
个 端口 之 间 的 报 文 流 ， 这 不 是 数据 链 路 层 中 两 个 主机 之 间 的 帧 流 。 滑 动 窗 口 协议 能 够 可 靠 地 被 用 于 数据 链 
路 层 以 及 传输 层 中 。 当 一 对 进程 已 经 结束 它们 对 虚 电 路 的 使 用 时 ， 因 为 有 网 络 资源 被 用 于 维持 虚 电 路 ， 所 
以 进程 必须 “拆除 它 ”以 释放 网 络 资源 。 

TCP 是 当代 网 络 中 主要 的 传输 层 实现 ， 它 提供 了 虚 电 路 功能 ， 从 而 使 发 送 进程 能 够 建立 一 个 到 远程 机 
器 的 虚 电路 ， 并 且 在 双向 的 连接 上 交换 信息 。TCP 通信 是 可 靠 的 ， 因 而 TCP 已 成 为 当代 应 用 中 的 骨干 协 
议 , 它 被 用 于 窗口 系统 (包括 X windows 系统 )、WWW、 远 程 文件 系统 以 及 邮件 系统 。 





示例 : 数据 报 和 虚 电 路 性 能 

TCP 提供 了 信息 的 可 靠 传送 并 且 实 现 了 一 个 字 节 流 ， 为 什么 程序 员 还 会 选择 使 用 UDP 呢 ? 这 个 问题 
的 答案 就 是 为 了 获得 更 好 的 性 能 。 

当 使 用 TCP 发 送 一 个 块 信息 时 ， 块 必须 变 成 字 节 流 ， 然 后 分 段 装配 成 带 序列 号 的 网 络 层 报 文 ， 并 且 
最 后 在 网 络 层 进行 传送 。 序 列 导 用 于 确认 每 个 报 文 的 接收 ， 并 且 保 证 它们 顺序 到 达 。 结 果 是 每 个 发 送 的 报 
文 必须 (正常 情况 下 ) 有 一 个 确认 报 文 回 传 给 发 送 者 (滑动 窗口 协议 能 够 消除 一 些 确 认 报 文 )。 

为 保证 信息 的 可 靠 传 送 的 开销 是 很 大 的 。 在 Stevens[ 1990, Ch.17] 的 论文 中 ,各 种 研究 引用 表明 , 当 
10Mbps 的 以 太 网 中 只 有 一 台 使 用 互联 网 进行 发 送 和 接收 信息 的 主机 时 ,4.2BSD TCP 会 有 一 个 大 约 90Kbps 
的 最 大 吞吐 率 ,同时 UDP 会 有 一 个 大 约 185Kbps 的 最 大 吞吐 率 。 然 而 ,Stevens 也 在 报告 中 指出 不 同 的 软件 
优化 可 以 增加 吞吐 率 ,如 在 10Mbps 的 以 太 网 中 使 用 Sun 3/60 系统 会 使 TCP 吞吐 率 达 到 890Kbps。( 根 据 在 
以 太 网 中 的 正常 开销 ,1K 报 文 的 TCP 在 理论 上 的 最 大 吞吐 率 是 每 秒 1192 个 报 文 ,或 1 203 920 个 字 节 每 
秒 。)Stevens 并 没有 提供 UDP 的 相应 加 速 数字 。 这 个 数据 表明 TCP 实现 可 以 几乎 与 UDP 一 样 快 。 不 幸 的 
是 ,并 非 所 有 的 应 用 都 结合 有 优化 ,因而 UDP 与 TCP 之 间 很 明显 就 是 性 能 与 可 靠 性 之 间 的 平衡 。 

E 





15.6 使 用 传输 层 
15.5 节 中 描述 了 必须 由 操作 系统 实现 的 一 些 基础 设施 。 下 面 更 全 面 地 考虑 一 下 应 用 程序 如 何 使 用 传输 层 。 
15.6.1 命名 和 地 址 


传输 层 地 址 空间 是 一 个 共享 的 全 局 地 址 空间 ， 任 何 进程 可 以 使 用 它 将 信息 发 送 给 另 一 个 进程 。 它 使 用 
网 络 层 互联 网 地 址 (net# ，host# ) 来 标识 机 器 ， 添 加 端口 号 来 建立 传输 层 地 址 (net, host #, port 
##)。 一 旦 网 络 ;上 的 机 器 7 的 一 个 进程 使 用 端口 号 上 &， 则 Internet 上 的 任何 进程 可 以 发 送信 息 给 CG, j, 
k)o AA i, js k 仅 是 非 负 整数 ， 任 何 进程 可 以 构建 一 个 传输 层 地 址 ， 诀 窍 只 是 使 用 正确 的 地 址 来 将 信息 
发 送 给 指定 的 进程 。 这 和 打 电 话 类 似 ， 需 要 知道 对 方 的 电话 号 码 。 

现在 考虑 一 下 进程 如 何 使 用 私有 地 址 空间 内 的 地 址 来 传输 和 接收 信息 ， 首 先 回忆 一 下 存储 映射 资源 如 
何 被 绑 定 到 进程 地 址 空间 中 去 : 进程 中 的 线程 发 出 一 个 系统 调用 ， 使 得 操作 系统 会 提供 相关 资源 的 引用 。 
例如 ， 在 C 程 序 设 计 语言 中 ， 可 以 用 如 下 的 代码 建立 一 个 管道 : 


int pipeEnds[2); 


pipe(pipeEnds); 
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pipeEnds [0] 地 址 是 一 个 从 管道 读 取 信息 的 引用 ，pipeEnds [1] 地 址 用 来 向 管道 中 写 入 信息。 为 了 
使 用 传输 层 设 施 ， 进 程 获得 一 个 端口 ， 并 将 端口 绑 定 到 地 址 空间 内 的 地 址 上 。 

有 了 进程 地 址 空间 和 传输 层 地 址 的 知识 后 ， 我 们 看 一 下 一 个 机 器 上 的 进程 如 何 发 送信 息 给 另 一 个 机 器 
上 的 进程 。 在 图 15-16 中 ， 端 口 1234 绑 定 到 了 进程 A 的 地 址 空间 中 的 地 址 0x001a4772 (在 该 图 中 ， 地 址 
是 由 进程 椭圆 中 的 小 方 框 表示 的 )。 进 程 B 使 用 共享 、 全 局 的 地 址 空间 来 将 信息 发 送 给 A 使 用 的 端口 。 这 
意味 着 当 A 地 址 空间 内 的 线程 读 写 地 址 0x001a4772 时 ， 它 读 写 主机 操作 系统 的 端口 #1234。 因 此 ， 进 程 
B 使 用 的 特定 (net#, host#, port#) 是 (31978，12，1234)。 即 B 使 用 (31978, 12, 1234) 地 址 调用 
传输 层 传输 机 制 (TCP 连接 传输 或 UDP 数据 报 传输 )。B 所 在 主机 的 传输 层 使 用 网 络 层 将 报 文 传 给 
(31978，12) ， 网 络 层 使 用 互联 网 将 包含 IP 报 文 的 帧 路 由 给 (31978, 12),. (31978, 12) 上 的 操作 系统 最 
终 接收 数据 链 路 层 上 的 帧 ， 比 如 说 它 的 NIC 地 址 为 0x80C31380837E。 网 络 层 会 得 到 IP 报 文 并 将 它 传递 到 
传输 层 。 传 输 层 发 送信 息 给 端口 1234， 进 程 A 就 可 以 使 用 地 址 0x001a4772 读 到 信息 。 


传输 层 全 局 地 址 空间 











(5623, 56, 2046) 


(3456, 77, 6785) 
(9876, 88, 3434) 







(31978, 12, 1234) 
LN 







网 络 #31978 主 机 #12 中 的 进程 A 


0x001a4772 
端口 1234 





网 络 #31978 主 机 #12 上 的 操作 系统 


图 15-16 ”共享 名 字 
注 : 传输 层 全 局 地 址 空间 是 所 有 三 元 组 〈; j, k) 的 集合 。 进 程 A 请 求 图 中 操作 系统 端口 # 1234 的 使 用 ， 然 
后 将 端口 号 绑 定 到 其 地 址 空间 中 的 一 个 地 址 。 现 在 ， 当 进程 B 发 送信 息 给 机 器 上 的 端口 号 ， 即 (31978, 
12，1234) 时 ， 进 程 A 就 可 以 使 用 绑 定 到 端口 的 地 址 来 读 取信 息 。 





进程 B 如 何 知道 (31978, 12) 128.123.234.12 (这 是 特定 主机 的 地 址 ) 一 一 以 及 进程 A 在 使 用 
端口 #1234 呢 ? 这 类 似 于 确定 一 个 公司 的 电话 号 码 (IP 地 址 ) 和 电话 系统 中 的 个 人 分 机 号 (端口 号 )。 将 
电话 系统 作为 参考 模型 ， 你 可 以 调用 本 地 电话 公司 的 目录 服务 来 得 到 公司 的 电话 号 码 ， 然 后 可 以 调用 公司 
的 目录 服务 来 得 到 你 想 要 的 个 人 分 机 号 。 

对 于 一 个 使 用 全 局 名 字 的 进程 /线程 来 说 ， 必 须要 有 一 个 有 效 的 名 字 注 册 (name registry) 支持 。 名 字 
注册 库 人 允许 一 个 进程 使 用 键 值 名 来 查询 目录 中 的 全 局 地 址 。 例 如 ， 名 字 注 册 库 允许 一 个 线程 使 用 关键 字 
FTP@cs.colorado.edu 来 获得 地 址 (31798，44，21)。 名 字 注 册 库 是 一 个 可 使 用 键 值 访问 的 数据 库 。 

名 字 注册 通常 是 网 络 服务 ， 所 以 它 有 自己 预 留 的 传输 层 地 址 。 这 是 一 个 公共 全 局 名 的 例子 ， 因 为 它 的 
名 字 通 常 并 不 改变 ， 并 且 它 可 以 硬 编码 到 应 用 中 (电话 目录 服务 也 有 一 个 保留 地 址 ， 如 555-1212 或 114) 。 
用 户 只 需 记 住 这 个 号 码 ， 因 为 可 以 呼叫 此 电话 号 码 来 得 到 其 他 号 码 。 

当代 网 络 中 使 用 了 很 多 不 同 的 名 字 注 册 或 者 目录 服务 。X.500 目录 服务 是 一 个 官方 的 ISO OSI 标准 的 
目录 服务 (对 于 OSI 标准 的 目录 服务 的 讨论 ， 可 参见 Piscitello and Chapin [1993，Ch.7])。 域 名 系统 
(DNS) 是 专用 于 因特网 的 名 字 目 录 服 务 。 
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示例 : 域名 服务 

域名 系统 被 广泛 用 于 公共 Internet 中 ， 用 来 将 文本 字符 串 映射 到 互联 网 地 址 (参见 Stevens [1994， 
Ch.14])。DNS 中 假定 ,在 全 球 互联 网 中 的 所 有 名 字 只 有 一 种 名 字 层 次 结构 ， 其 中 有 一 个 带 顶 级 域名 
arpa, com, edu, gov, int, mil, net, org (通过 ISO 3166 标准 规定 的 ) 的 根 。 没 有 一 个 机 构 来 管理 整个 
的 名 字 空 间 ， 但 有 一 个 组 织 来 管理 每 个 顶级 域名 ， 可 以 在 其 下 注册 子 域名 。 每 个 顶级 域名 可 以 有 大 量 的 二 
级 域名 。 例 如 ， 顶 级 域名 edu 有 一 个 二 级 域名 colorado, colorado 域 由 对 Boulder 城 Colorado 大 学 中 各 单 
位 建立 互联 网 名 字 的 互联 网 域名 机 构 进行 管理 ， 域 的 全 名 是 colorado. edu。 在 colorado 域 中 有 另 一 个 称 为 
cs 的 域 ， 它 由 Colorado 大 学 的 计算 机 科学 系 进行 管理 ， 这 个 域名 为 cs.colorado.edu。 类 似 地 ， 在 DNS 域 中 
的 其 他 域名 有 相同 的 格式 ， 例如 cs.arizona.edu, yahoo.com, nsf.note.gov 以 及 inf.enst. fro 

每 个 用 户 机 器 中 的 解析 器 (resolver) 保存 用 于 访问 的 部 分 层次 结构 域名 的 拷贝 ， 并 且 在 向 不 知 互 联网 
地 址 的 DNS 域名 求助 时 ， 有 能 力 与 DNS 域名 服务 器 连接 。 在 BSD 套 接 字库 中 的 gethostbyname () 调用 
可 以 激活 解析 器 ， 来 确定 DNS 域名 机 器 的 互联 网 地 址 。 解 析 器 的 客户 端口 是 作为 库 代码 来 实现 的 ， 因 而 
它 被 链接 到 调用 进程 的 地 址 空间 ， 解 析 器 的 服务 端口 是 一 个 由 解析 器 库 代 码 相连 接 的 网 络 服务 器 。 
E 





15.6.2 客户 一 服务 器 模型 


在 本 书 中 ， 我 们 非 正 式 地 使 用 了 术语 “客户 ”和 “服务 器 "， 这 个 术语 来 自 于 网 络 中 的 客服 - 服务 器 
计算 模型 。 它 是 一 个 一 般 的 分 布 式 计算 模式 ， 它 依赖 于 传输 层 设 施 ， 也 包括 域名 服务 在 内 。 我 们 将 使 用 单 
线程 进程 来 描述 这 种 模式 ， 在 这 种 模式 下 ， 服 务 器 是 一 个 被 动 的 进程 ， 它 给 任意 主动 进程 提供 指定 的 服 
务 ; 客户 是 一 个 要 求 服 务 的 主动 进程 。 

几 种 当代 的 软件 产品 都 采用 了 客户 - 服务 器 模式 ， 包 括 文件 服务 器 、 打 印 服务 器 、 数 据 库 服 务 器 以 及 窗 
只 服 务 器 等 。 如 同名 字 所 表明 的 一 样 ， 客 户 -服务 器 模式 具有 异步 的 行为 ， 服 务 器 总 是 存在 于 网 络 中 ， 被 动 
地 等 待 服务 请 求 ， 而 同时 自治 的 客户 进程 决定 什么 时 候 去 使 用 服务 器 。 服 务 器 是 一 个 专注 工作 的 工作 者 进 
程 ， 而 客户 是 一 个 请 求 服务 的 管理 者 进程 。 

在 机 器 网 络 中 ， 服 务 器 作为 一 个 自治 进程 进行 初始 化 。 图 15-17 显示 了 服务 器 进程 的 结构 框架 ， 该 结 
构 中 说 明了 一 个 数据 报 接口 ， 因 为 服务 器 能 够 接受 从 任意 客户 发 来 的 请 求 ， 并 服务 该 请 求 ， 然 后 又 从 不 同 
的 客户 接受 请 求 。 





int serverSkt; /* The socket used to receive requests */ 
struct request type *request; /* Details of a request */ 


serverSkt = initialize(); /* Create a socket and bind it 
* Register server with the registry 
* Initialize data structures, etc 
*/ 
while(TRUE) { /* Service requests until the process dies */ 
request = waitForRequest{}; /* Get a request */ 
‘serviceTheRequest (request); /* Then service it */ 


}; 








图 15-17 服务 器 结构 
注 ; 代码 框架 解释 了 被 动 服务 器 进程 的 结构 。 
假设 一 个 客户 请 求 服务 器 为 它 发 送 一 个 文件 的 拷贝 ,客户 也 许 要 花费 相当 长 的 时 间 来 获得 该 服务 ， 
因为 服务 器 在 传送 文件 到 网 络 之 前 ， 要 花费 基本 的 I/O 时 间 来 从 它 的 本 地 磁盘 中 读 取 文件 。 在 这 种 情形 
中 ， 一 个 客户 尽管 没有 使 用 服务 器 其 他 的 服务 ， 也 可 能 独占 一 个 服务 器 的 时 间 。 通 常 通过 多 道 程序 设计 技 
术 ， 假 定 服务 之 间 不 相互 干扰 ， 从 而 实现 在 一 个 时 间 内 能 够 支持 服务 多 个 请 求 的 服务 器 。 可 以 扩展 客户 - 
服务 器 模式 来 使 用 这 种 多 道 程序 设计 技术 。 假 设 服务 器 通过 一 个 专门 的 监听 (listener) 进程 来 初始 化 ,该 
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进程 的 唯一 工作 是 接受 服务 请 求 并 且 委派 请 求 给 其 他 进程 处 理 以 完成 实际 的 服务 。 那么 服务 器 进程 就 采取 


如 图 15-18 中 所 示 的 形式 。 第 1 个 请 求 
监听 进程 是 在 服务 器 的 传输 层 地 址 上 监听 的 永久 
进程 (或 线程 )， 它 接受 来 自 每 个 客户 的 初始 服务 请 






求 ， 如 果 有 必要 还 要 进行 认证 ， 然 后 为 每 个 请 求生 成 
一 个 服务 器 进程 〈 或 线程 )。 每 个 客户 可 以 与 监听 进程 
生成 的 服务 器 拷贝 交换 信息 ， 而 无 需 因 使 用 服务 器 而 
阻塞 其 他 客户 。 在 这 个 模型 中 ， 一 个 机 器 可 能 有 几 个 
进程 在 一 个 共享 的 数据 结构 上 执行 同一 个 过 程 ， 该 数 
据 结构 描述 了 共享 服务 的 状态 。 在 服务 器 机 器 中 ， 服 
务 器 进程 之 间 的 上 下 文 切 换 就 成 了 主要 的 处 理 机 消耗 ， 
因而 这 种 应 用 用 线程 来 进行 更 合适 。 

图 15-19 中 的 代码 段 (使 用 BSD 套 接 字 软 件 ) 解 
释 了 并 发 服务 器 的 服务 器 行为 。 客 户 通过 将 信息 发 送 


生成 







给 服务 地 址 一 一 机 器 上 的 一 个 端口 来 请 求 服务 。 (为 了 后 续 命 令 
初始 化 服务 请 求 ， 客 户 程 序 必 须要 知道 服务 器 的 地 图 15.18 并 发 服务 器 


ho) 这 个 地 址 可 能 是 已 知 的 ， 或 者 从 目录 服务 点 获 +. 并 发 服务 器 使 用 多 道 程 序 设计 来 支持 多 个 同时 

得 。 初始 化 代码 请 求 主机 操作 系统 确定 机 器 的 (net 发 生 的 客户 - 服务 器 会 话 。 监 听 进 程 接 收工 作 

# ,host# )。 下 一 步 ， 它 请 求 一 个 端口 ， 在 BSD 报 文 请 求 ， 然 后 为 每 个 客户 建立 一 个 服务 器 子 进程 

PER AER F (socket), RCH (net #, host #, 来 提供 服务 。 

port#) 绑 定 到 套 接 字 上 。 服 务 器 用 accept () 调用  . 

来 等 候 客 户 请 求 服务 。newSkt 值 是 一 个 新 的 套 接 字 ， 它 可 用 来 在 服务 器 进程 /线程 和 客户 间 通信 。 在 ac- 

cept () 调用 完成 后 ， 服 务 器 调用 fork () 来 建立 一 个 子 服务 器 进程 ， 它 用 来 为 请 求 的 客户 提供 服务 。 
客户 - 服务 器 模型 是 组 织 分 布 式 操作 中 最 广泛 采用 的 一 种 模式 ， 操 作 系统 设计 者 在 操作 系统 实现 中 使 

用 了 这 种 模型 。 例 如 ， 下 一 章 描述 的 远程 文件 系统 都 是 围绕 着 客户 - 服务 器 模型 来 设计 的 。 这 个 模型 也 强 

调 了 需要 有 效 的 进程 管理 ， 并 鼓励 操作 系统 支持 线程 模型 。 





/* The Listener/Server Processes */ 
int main(int argc, char *argviJ) { 
void runServer(int); 
char serverHostName[HOSTNAMELEN] ; 
int on = 1, port, clientLen, newSkt, skt, run = TRUE; 
struct sockaddr *client, listener; 
struct hostent *host; 









initialize(); /* Determine the server’s host name and port */ 
* Set up a socket for listening 
* Fill-in the internet info 
* Bind the listener's address 
Å, */ 
/* Wait for client requests */ 
clientLen = sizeof(client); 
while(TRUE) { 
/* wait for a service request() */ 
















newSkt = accept(skt, &client, &clientLen); 
/* Start a server to serve the request */ 
if (fork() == 0) { 
/* Only the server child executes this code */ 







图 15-19 细 化 服务 器 结构 
注 : 代码 框架 描述 了 如 何 用 UNIX BSD 套 接 字 来 实现 图 15-18 所 示 的 并 发 服务 器 。 其 中 有 更 细节 性 的 描述 。 
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close(skt); /* Server doesn't need the listener skt */ 
runServerCommand (newSkt ); 

/* Server done ... terminate */ 
exit(0); 


} 
close(newSkt); /* Listener doesn’t need the server skt */ 
} 
> 








Æ 15-19 (8) 


15.7 网络 安全 


第 14 章 着 重 介绍 了 保护 机 制 和 安全 策略 ， 当 时 你 还 没有 学 习 网 络 的 细节 。 当 代 网 络 系统 中 使 用 的 大 多 数 授 
权 机 制 都 是 围绕 ISO OSI 协议 系列 来 构建 的 。 本 节 讨论 了 在 现代 操作 系统 中 网 络 安全 方面 的 主要 授权 机 制 。 


15.7.1 传输 层 安 全 : 防火 墙 


计算 机 使 用 IP 协议 来 连接 到 公共 Internet 上 ， 这 意味 着 大 多 数 的 网 络 应 用 通过 使 用 传输 层 协议 (如 
TCP) 或 协议 栈 的 更 高 层 来 进行 交互 。 一 个 特定 组 织 的 一 组 计算 机 需要 有 某 种 形式 的 物理 安全 ; 计算 机 存 
放 在 有 锁 的 办 公 楼 、 房 间或 私人 办 公 室 里 。 然 而 ， 每 个 计算 机 在 传输 层 可 以 通过 Internet 进行 访问 ， 则 In- 
ternet 上 的 任何 计算 机 可 以 访问 这 个 组 织 的 计算 机 。 像 其 他 的 安全 情形 一 样 ， 组 织 需 要 控制 外 部 对 象 对 组 
织 对 象 计算 机 和 信息 ) 的 访问 类 型 。 

加 入 到 这 个 组 织 的 最 有 效 的 保护 机 制 是 防火 墙 。 防 火 墙 (firewal) 是 一 台 计 算 机 ， 它 位 于 公共 的 Internet 
和 组 织 的 每 个 计算 机 之 间 ( 见 图 15-20)。 组 织 的 intranet 是 它 自己 的 内 部 网 络 ， 可 以 使 用 它们 想 要 的 任何 协 
议 ， 内 部 的 主机 可 以 用 内 部 协议 来 与 男 一 台 主 机 进行 交互 。 


Internet 





图 15-20 防火 墙 
È: 防火 墙 位 于 公司 的 intranet 和 公共 的 Internet 之 间 。 在 每 次 发 送信 息 到 intranet 上 的 主机 时 ， 防 火 墙 都 会 检查 
每 个 传输 层 请 求 (TCP 连接 请 求 或 UDP 数据 报 传送 )。 


防火 墙 有 几 种 不 同 的 实现 ， 从 作为 intranet 网 关 的 机 器 上 运行 的 内 核 网 络 软件 ， 到 解释 网 络 管理 员 提 
供 的 安全 策略 的 特定 硬件 。 每 一 种 防火 墙 实现 一 般 来 说 都 提供 了 传输 层 过 滤 ， 可 以 给 防火 墙 提 供 一 组 规则 
来 指定 安全 策略 : 

u 阻塞 所 有 访问 ,除了 来 自 机 器 上 进程 的 请 求 (nett, hott, +) (“* ”表示 可 能 来 自 指定 机 器 上 

的 任何 端口 )。 

图 {LIFA (netH#, host#, port#) 对 Internet 的 a 访问 。 

m 允许 从 任何 Internet 主机 上 对 我 的 80 端口 的 访问。 

防火 墙 的 任务 就 是 基于 这 些 规 则 对 每 次 请 求 进行 授权 检查 。 防 火 墙 机 器 是 作为 传输 层 防火 墙 来 运行 的 
(将 这 些 规则 应 用 到 使 用 net, host 和 port 的 TCP 和 UDP 中 )。 它 也 可 以 在 协议 栈 的 不 同 层 运行 ， 如 网 络 
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层 。 一 般 来 说 ， 当 代 的 防火 墙 是 4 层 防火 墙 ， 这 些 基 于 规则 的 4 层 防火 墙 机 器 是 十 分 有 效 的 ， 也 非常 容易 
实现 。 

防火 墙 机 器 确实 可 靠 吗 ? 当然 不 是 。 防 火 墙 的 基本 思想 是 建立 一 个 不 可 渗透 的 屏障 ， 不 允许 任何 进入 
的 业务 。 而 规则 允许 网 络 管理 员 “ 在 防火 墙 上 穿 一 个 洞 "， 来 使 得 内 网 可 被 Internet 上 的 其 他 主机 访问 。 
web 服务 器 需要 使 用 80 端口 ， 所 以 web 浏览 器 可 以 利用 它 与 服务 器 进行 通信 。 类 似 地 ， 防 火 墙 上 也 有 其 
他 的 洞 来 提供 给 https (安全 的 http), SMNP (邮件 ) FTP 等 使 用 。 一旦 防火 墙 允许 访问 进入 intranet, M 
需要 其 他 的 软件 来 确保 外 部 的 主体 对 其 没有 危害 。 

防火 墙 是 现代 网 络 系统 的 必 不 可 少 的 成 分 ， 没 有 它们 ，intranet 会 受到 来 自 Intenet 上 任何 其 他 主机 的 
攻击 。 所 以 防火 墙 在 当代 的 计算 机 中 应 用 非常 普遍 。 


15.7.2 网 络 层 安全 : IPsec 


随 着 网 络 的 发 展 ， 许 多 人 意识 到 需要 在 网 络 层 运行 一 种 安全 机 制 。 结 果 ， 被 称 为 IPsec 协议 套餐 的 安 
全 协议 系列 就 应 用 于 网 络 层 ( 见 [IETF，1998])。IPsec 机 制 是 为 IPv4 和 IPv6 设计 的 ， 它 提供 了 可 互 操 
作 的 、 高 质量 的 、 基 于 加 密 的 安全 策略 。 协 议 系 列 中 的 不 同 规范 文档 解决 了 授权 机 制 、 通 过 IP 传递 的 信 
息 源 的 认证 、 加 密 、 信 息 流 控 类 型 的 隐藏 等 问题 。 

协议 套餐 通常 实现 在 称 为 安全 网 关 (security gateway) 的 IP 网 关机 器 上 (网 络 层 防火 墙 )。 协 议 套 餐 
的 行为 由 安全 策略 数据 库 来 定义 ， 它 可 定义 特定 的 策略 、 算 法 和 加 密 密 钥 。 像 传输 层 防 火 墙 ， 网 络 层 将 过 
滤 PRX, 或 者 允许 它们 通过 ,或 者 不 允许 。 被 允许 进入 的 信息 可 由 安全 网 关 进行 解密 。 

协议 套餐 的 基础 是 认证 头 协 议 (Authentication Header protocol) 和 封装 安全 有 效 载荷 协议 (Encapsulat- 
ing Security Payload protocol) ， 前 者 可 以 用 来 确定 每 个 信息 单元 的 源 ， 后 者 关心 的 是 使 用 加 密 技术 进行 内 容 
的 安全 发 送 。 总 之 ， 对 于 从 一 台 主 机 传递 到 另 一 台 主 机 的 信息 ， 这 两 种 协议 实现 了 基本 的 认证 和 加 密 功 
能 。 

IPsec 协议 套餐 通常 用 来 实现 隧道 (tunnel) ,或 互联 网 上 两 个 主机 间 的 逻辑 连接 。IPsec 隧道 不 同 于 普 
通 的 TCP 连接 ， 因 为 它 采 用 了 认证 (使 用 认证 头 协 议 ) 和 加 密 (使 用 封装 安全 有 效 载荷 协议 )。IPsec 隧 
道 ， 也 称 为 虚拟 私有 网 络 (virtual private network，VPN) ， 广 泛 地 使 用 在 当代 系统 中 。 

虚拟 私有 网 络 允许 公司 建立 一 个 intranet (由 防火 墙 保护 ) 来 保持 公司 的 信息 和 其 他 的 资源 。 雇 员 可 
以 使 用 虚拟 私有 网 络 来 建立 一 个 安全 的 连接 ， 通 过 防火 墙 来 进入 受 保护 的 intranet。 一 旦 雇员 建立 了 进 和 人 
intranet 的 IPsec 隧道 ， 他 们 就 可 以 对 内 部 的 信息 进行 操作 ， 就 好 像 在 防火 墙 内 使 用 计算 机 一 样 。 


15.8 小 结 


现代 计算 机 系统 使 用 ISO 的 OSI 体系 结构 模型 作为 网 络 协议 定义 的 框架 。 该 模型 是 一 个 分 层 的 体系 结 
构 ， 它 有 这 样 一 些 层次 : 物理 层 、 数 据 链 路 层 、 网 络 层 、 传 输 层 、 会 话 层 、 表 示 层 以 及 应 用 层 。 本 章 描 述 
了 MAC 协议， 它们 是 被 操作 系统 管理 的 硬件 资源 ， 还 描述 了 网 络 层 和 传输 层 ， 因 为 它们 通常 在 操作 系统 
中 实现 。 

低层 的 协议 定义 了 物理 信号 传输 协议 ， 将 字 节 流 组 织 成 数据 链 路 帧 。 网 络 层 实 现 了 互联 网 一 网络 的 
网 络 ， 它 使 用 网 关 来 连接 独立 的 网 络 。 大 多 数 的 网 络 级 实现 是 基于 ARPA 网 的 Internet 协议 ， 即 IP. 

传输 层 实现 了 多 种 数据 结构 类 型 ， 最 为 重要 的 是 ， 在 ISO 的 OSI 模型 中 不 可 靠 的 低层 上 实现 了 可 靠 的 
网 络 通信 。 传 输 层 的 地 址 不 同 于 网 络 层 所 使 用 的 地 址 ， 通 过 使 用 端口 说 明 ， 来 区 分 一 个 特定 的 位 置 (net 
#,host#) 中 的 多 个 通信 端点 。 传 输 层 的 地 址 格式 为 (netH , host #,port+), 

TCP 是 OSI 传输 层 的 主要 协议 ， 它 提供 了 一 个 虑 电路 功能 ， 从 而 使 程序 员 能 够 建立 一 个 虚 电 路 并 读 写 
虚 电 路 上 的 双向 字 节 流 。 

随 着 网 络 使 用 得 越 来 越 广泛 ， 安 全 问题 变 得 日 益 重要 了 。 今 天 ， 在 互联 网 上 单个 网 络 通常 使 用 防火 墙 
来 授权 Internet 上 的 远程 机 器 对 网 络 资源 的 访问 。 因 为 防火 墙 的 需要 ，VPN 常 使 用 在 Internet 上 ， 使 得 远 
程 机 器 可 以 对 网 络 资源 进行 授权 的 访问 。 

应 用 程序 如 何 使 用 网 络 协议 支持 分 布 式 计 算 呢 ? 远程 文件 系统 是 最 为 广泛 的 传输 层 网 络 应 用 。 下 一 章 
中 将 解释 远程 文件 系统 如 何 使 用 传输 层 ， 人 允许 一 个 机 器 上 的 一 个 进程 使 用 位 于 另 一 个 机 器 中 的 文件 。 
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15.9 习题 


1. 


假设 在 一 个 10Mbps 的 网 络 中 传送 1024 字 节 大 小 的 报 文 ， 每 个 报 文中 包含 有 一 个 128 字 节 的 头 以 
及 4 个 字 节 的 校 验 和 。 如 果 局 域 网 上 的 一 个 工作 站 保证 能 够 每 X 个 时 间 单 位 至 少 传送 一 个 报 文 
(因为 网 络 是 与 其 他 工作 站 共享 的 )， 那 么 《只 基于 这 些 因素 ) 从 服务 器 传输 一 个 3MB 的 文件 到 工 
作 站 ， 所 用 的 最 大 时 间 数 应 该 是 多 少 ? 从 服务 器 到 工作 站 的 有 效 传输 速率 是 多 少 ? 


. 在 一 个 10 Mbps 的 以 太 网 中 ， 由 中 有 一 个 22 字 节 的 头 和 4 字 节 的 尾 ， 帧 之 间 的 最 小 间隔 为 12 + 


节 。 假 定 巾 中 的 用 户 数 据 域 为 1464 字 节 ， 同 时 每 个 帧 之 间 有 最 小 的 间隔 。 

a. 理论 上 用 户 数据 在 以 太 网 上 传输 的 最 大 速率 是 多 少 ? 

b. 设 呈报 文 的 头 部 为 20 字 节 ，UDP 报 文 头 部 为 8 字 节 。 那 么 理论 上 在 以 太 网 上 使 用 UDP 传输 
用 户 数据 的 最 大 速率 是 多 少 ? 

c. 设 呈报 文 的 头 部 为 20 字 节 ， 并 且 TCP 报 文 头 部 为 20 字 节 。 那 么 理论 上 在 以 太 网 上 使 用 TCP 
传输 用 户 数据 的 最 大 速率 是 多 少 ? (忽略 ACK 报 文 的 开销 。) 


. 使 用 Windows 同步 原 语 重 写 图 15-9 所 示 的 停止 并 等 待 算法 。 你 可 以 使 用 伪 代 码 来 解决 ， 但 是 使 用 


Windows 函数 名 用 来 进行 同步 调用 。 


. 写 一 段 伪 代 码 来 概括 图 15-9 的 停止 并 等 待 算法 ， 并 且 实 现 滑动 窗口 协议 。 在 15.3 节 描 述 的 数据 链 


路 层 协 议 中 ， 每 一 个 帧 有 头 部 和 尾部 。 


: 在 许多 实现 中 将 校 验 和 放 在 尾部 ， 描 述 帧 的 所 有 其 他 信息 放 在 头 部 ， 网 络 设计 者 为 什么 这 样 做 ? 


(而 不 是 将 校 验 和 放 在 头 部 的 另 一 个 域 中 ， 这 样 就 可 以 不 需要 尾部 。) 


. 给 定 一 个 IP 地 址 (19919, 12649): 


a. 哪个 是 在 点 分 十 进 制 描述 中 的 A 类 地 址 ? 
b. 哪个 是 在 点 分 十 进 制 描述 中 的 C 类 地 址 ? 


- 下 面 的 地 址 属于 哪 一 类 地 址 ? 将 下 面 的 每 个 C 类 地 址 转换 为 形 如 (net 并 ，host#) 的 IP 地 址 。 


a. 68. 38. 129. 63 

b. 217. 167. 115. 12 
c. 130. 34. 153. 91 
d. 63. 148. 99. 227 
e. 80. 109. 69. 127 
f. 164. 145. 224. 190 


. 假设 一 个 互联 网 的 结构 如 图 15-21 所 示 ， 软 件 中 使 用 给 定 的 传输 层 地 址 ， 并 且 机 器 使 用 给 定 的 数据 


链 路 层 地 址 : 
a. 列 出 每 个 机 器 的 网 络 层 地 址 。 
b. 描述 用 于 从 < 20，40，1333> 发 送 一 个 UDP 报 文 到 <35，40，1888> AWE, 









<20, 40, 1333> <35, 40, 1888> 
0x1876543 0x 15465766 





<35, 30, 1333> 


<20, 35, 1444> 0x16701234 


0x1834567 


<30, 15, 1666> <30, 25, 1555> 
0x1645673 0x17654321 


图 15-21 一 个 互联 网 的 结构 
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9. 考虑 在 ARPA 网 的 每 个 结 点 和 网 关中 采用 的 只 部 分 实现 路 由 表 的 框架 。 如 果 合 并 起 来 的 路 由 信息 
是 完全 的 、 一 致 的 以 及 稳定 的 ， 解 释 一 下 为 什么 路 由 能 正确 地 实现 。 在 实际 的 ARPA 网 中 ， 有 很 
多 的 细节 因素 限制 了 解决 方案 的 实现 ， 而 本 文中 并 没有 涵盖 这 些 细节 内 容 ， 因 而 你 需要 在 描述 有 
关 网 关 的 运行 前 说 明 所 有 的 假设 前 提 。 

10. Berkeley UNIX 中 的 connect () 系统 调用 有 一 个 大 约 1 分 钟 的 超时 间隔 ， 但 accept () 调用 并 没 

有 超时 间隔 。 解 释 一 下 为 什么 这 些 函 数 可 以 以 上 述 方式 进行 设计 ? 
11. 编写 一 段 伪 C 代码 来 定义 图 15-17 中 所 引用 的 waitForRequest 函数 。( 提 示 : 看 一 下 实验 15.1 中 
的 图 15-22 和 图 13-23， 可 能 会 对 你 有 用 。) 


实验 15.1: 使 用 TCP/IP 协议 


本 练习 可 以 在 Windows 9x/Me, Windows NT. Windows 2000 或 任意 有 BSD 网 络 套 接 字 的 任 
fay UNIX 系统 (例如 FreeBSD 和 Linux) 下 得 以 实现 。 i 


UNIX 系统 中 提供 了 一 种 称 之 为 talk 的 工具 ， 使 两 个 不 同 的 用 户 能 够 登录 到 同一 台 计算 机 中 进行 一 个 实时 
对 话 。 一 个 用 户 用 另 一 个 用 户 的 登录 名 作为 参数 来 激活 talk 请 求 一 个 talk 会 话 ， 当 第 二 个 用 户 接受 了 该 请 求 
时 ， 两 个 用 户 之 间 的 “连接 ”就 完成 了 。 本 练习 要 求 你 在 两 个 机 器 上 的 两 个 不 同 进程 之 间 实 现 一 个 talk 工具 的 
框架 。 为 了 简化 ,假设 该 工具 是 异步 的 ， 感觉 上 一 个 进程 是 作为 发 起 者 (initiator)， 另 一 个 作为 接收 者 (receiv- 
er)。 发 起 者 通过 请 求 一 个 虚 电 路 开始 与 接收 者 的 talk 会 话 。 通 过 如 IPC 机制 一 样 的 互联 网 地 址 域 来 使 用 BSD 网 
络 接口 通信 机 制 。 每 个 进程 应 该 提供 一 个 单独 的 用 于 发 送 和 接收 的 控制 台 窗口 (UNIX 中 的 talk 将 屏幕 分 割 成 
两 个 窗口 )。 输 出 的 消息 之 前 使 用 一 个 “>” 符 号， 并且 在 输入 的 消息 之 前 使 用 一 个 “<” 符 号。 在 你 的 解决 方 
案 中 ， 如 果 本 地 用 户 当前 正在 输入 一 个 命令 行 ， 那 么 可 以 允许 一 个 从 远程 用 户 来 的 输入 行 中 断 之 。 


背景 


BSD 的 套 接 字 (socket) 机 制 实现 了 传输 层 服务 ， 它 被 用 于 很 多 的 UNIX 系统 以 及 Windows 的 
WinSock 包 中 。 在 前 面 的 章节 中 ， 你 已 经 学 习 了 在 传输 层 协议 中 如 何 使 用 数据 报 或 虚 电 路 ， 这 两 者 都 要 求 
进程 在 使 用 传输 层 机 制 之 前 ， 必 须 在 一 个 进程 的 地 址 空间 中 建立 起 通信 端点 。 在 BSD 套 接 字 包 中 ， 一 个 
套 接 字 就 是 端点 。 套 接 字 是 通过 一 个 系统 调用 分 配给 进程 的 一 个 操作 系统 实体 ， 调 用 的 函数 原型 如 下 : 


int socket (int addressFamily, int socketType, int protocolNo); 


参数 addressFamily 规定 了 套 接 字 将 使 用 的 名 字 域 和 协议 族 ， 所 支持 的 名 字 域 取决 于 特定 的 操作 系统 
(例如 ，Sun UNIX 发 行 版 4.1 中 支持 一 个 UNIX 内 部 域 、ARPA 互联 网 协议 以 及 ARPA 的 IMP 域 [Sun， 
1990]). BRL socketType 定义 了 将 用 于 套 接 字 的 数据 类 型 。 在 Sun 发 行 版 4.1 中 ,数据 类 型 可 以 是 字 节 
流 、 数 据 报 、 原 始 的 互联 网 报 文 以 及 带 序列 号 的 报 文 ; 后 来 的 发 行 版 中 也 支持 Xerox 网 络 系统 的 地 址 和 协 
议 。 参 数 protocol No 用 于 说 明和 给 定 地 址 种 类 对 应 的 给 定数 据 类 型 所 使 用 的 协议 。 

参数 addressFamily 指明 了 如 果 套 接 字 被 映射 到 一 个 外 部 的 名 字 空 间 ， 那 么 它 将 使 用 哪 一 个 名 字 空 间 。 
如 果 addressFamily 被 设置 为 HE _ INET， 那 么 套 接 字 将 使 用 互联 网 地 址 。 在 大 多 数 的 实现 中 ，TCP 使 用 虚 
电路 类 型 ，UDP 使 用 数据 报 类 型 。 这 意味 着 如 果 套 接 字 创建 时 socketType 的 值 为 SOCK _ DERAM， 那 么 默认 
的 protocolNo 就 指向 UDP。 类 似 地 ， 如 果 socketType 的 值 为 SOCK STREAM, BRLAHY protocolNo 就 是 TCP 
BAX. (HIER socketType 被 定义 并 且 protocolNo 被 作为 0 进行 传递 ， 就 会 选择 默认 值 .) 例如 ， 为 了 说 明 
套 接 字 使 用 互联 网 地 址 和 数据 报 ， 调 用 格式 如 下 : 


int socket (MEF_ INET, SOCK_DGRAM, 0); 


尽管 有 必要 为 套 接 字 说 明 地 址 的 种 类 ， 但 套 接 字 可 以 被 用 于 在 互联 网 上 发 送信 息 而 无 需 与 一 个 互联 网 地 址 
相关 联 。 然 而 ， 在 信息 可 以 被 互联 网 上 任意 指定 的 位 置 接收 之 前 ， 接 收 套 接 字 必 须 与 一 个 形 如 < net，host， 
Port> 的 互联 网 地 址 绑 定 。 否 则 ， 接 收 者 将 不 能 得 到 使 用 互联 网 地 址 <net，host，port > 的 报 文 。socket () 系 
统 调 用 设计 的 根据 ， 在 于 系统 必须 知道 一 个 套 接 字 将 如 何 被 使 用 一 一 当 发 送 和 接收 信息 时 地 址 的 种 类 和 使 用 的 
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协议 。 然 而 ， 并 不 要 求 发 送 方 套 接 字 必须 有 一 个 相关 联 的 互联 网 地 址 ， 才 能 通过 该 套 接 字 传送 信息 。 

在 使 用 互联 网 地 址 的 套 接 字 中 (其 中 的 addressFamily 被 设置 为 AF _ INET), 一 个 形 如 < net, host, 
port> 的 全 局 名 字 ( 互 联网 的 ) 可 以 通过 一 个 明确 的 系统 调用 实现 与 一 个 套 接 字 相 关联 一 一 也 称 作 互联 网 地 
址 与 套 接 字 绑 定 。 如 果 一 个 进程 想 使 用 套 接 字 在 互联 网 上 把 信息 传送 到 一 个 远程 站 点 ,本 地 进程 只 能 通过 之 
前 与 远程 进程 中 套 接 字 绑 定 的 互联 网 地 址 ,才能 访问 远程 进程 中 的 套 接 字 。 因 而 ,如 果 一 个 进程 想 让 其 他 进程 
发 送信 息 给 自己 , 它 必须 在 自己 的 地 址 空间 中 创建 一 个 套 接 字 ,然后 将 套 接 字 与 一 个 互联 网 地 址 绑 定 在 一 起 。 

在 BSD UNIX 系统 中 ,端口 号 用 于 在 一 个 特定 的 主机 中 识别 互联 网 传输 点 。 端 口号 0 到 1023 是 为 公共 
服务 所 保留 的 (例如 ,端口 号 21 被 FTP 应 用 程序 所 使 用 )。BSD UNIX 系统 将 自动 地 选择 一 个 端口 号 ,或 者 
程序 员 能 够 规定 一 个 指定 的 端口 号 (假定 它 在 绑 定 调用 的 时 刻 还 没有 被 绑 定 )。bind 系统 调用 的 格式 如 下 : 


int bind (int skt, struct sockaddr * addr, int addrLen); 


参数 skt 是 通过 socket 调用 返回 的 套 接 字 标识 号 。addr 是 一 个 保存 互联 网 地 址 的 数据 结构 (对 于 套 
接 字 来 说 ,使 用 三 _ INET 名 字 域 )。sockaddr 类 型 用 于 任意 域 , 但 sockaddr _ in 类 型 代表 下 _ INET 域 。 参 
数 addrLen 是 数据 结构 addr 的 长 度 。 

在 图 15-22 所 示 的 代码 段 中 ， 在 UNIX 进程 的 地 址 空间 中 创建 了 一 个 套 接 字 ， 然 后 将 它 与 端口 1234 及 一 个 
互联 网 地 址 绑 定 在 一 起 ， 其 中 netNo 和 hostio 是 执行 代码 的 机 器 的 互联 网 地 址 ，1234 是 程序 员 选 定 的 端口 号 。 






skt = socket(AF_INET, SOCK_STREAM, 0); /* Create the socket */ 
host = gethostbyname(serverHostName); /* Get <net, host> */ 
/* Create a structure containing my internet address */ 
bzero(&addr, sizeof(addr)); 
addr.sin_family = host->h_addrtype; 
addr.sin_port = htons(1234); 
beopy(host->h_addr, &addr.sin_addr, host->h_length); 
/* Bind the internet address to my socket */ 
if(bind(skt, &addr, sizeof(addr))) { 
printf(“Bind error ... restart\n”); 











图 15-22 ” 绑 定 一 个 套 接 字 到 一 个 互联 网 地 址 
TE: 此 代码 段 显示 了 如 何 建立 一 个 TCP 套 接 字 并 将 它 绑 定 到 一 个 IP 地 址 。gethostbyname () 调用 将 DNS 名 转换 
A (net#, host#). addr 域 用 net# 、host 井 和 port #3438 (EM htons O 调用 转换 成 网 络 格式 后 )。 





示例 : WinSock € 
Windows 的 WinSock 包 模 仿 了 BSD UNIX 的 Socket 包 (事实 上 它 使 用 了 很 多 相同 的 代码 )。 它 允许 程 
序 员 在 使 用 IP 的 同时 使 用 UDP 和 TCP， 同 样 可 使 用 其 他 的 协议 。WinSock 包 要 求 你 在 使 用 包 的 任 -一 部 分 
之 前 要 调用 WSAStartup ()， 并 且 在 使 用 完 它 们 以 后 要 调用 WSACleanup ()。 


int WSAStartup ( 
WORD wVersionRequested, 
LPWSADATA 1lpWSAData 

); 


参数 wersionRequested 告诉 startup 包 ， 当 前 代码 将 使 用 的 WinSock 包 的 最 新 版 本 。 参 数 1pWSapata 
用 于 返回 一 个 带 有 你 所 使 用 版 本 详细 情况 的 WSAData 结构 ，WSAData 结构 的 形式 如 下 : 


typedef struct WSAData { 
` WORD wVersion; 

WORD wHighVersion; 
char szDescription(WSADESCRIPTION_LEN+1]; 
char szSystemStatus[WSASYS_STATUS_LEN+1]; 
unsigned short iMaxSockets; 
unsigned short iMaxUdpDg; 
char FAR * lpVendorInfo; 

} WSADATA, FAR * LPWSADATA; 
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更 多 的 详情 可 参见 联机 的 MSDN 文档 。 清 除 例 程 : 


int WSACleanup (void) 


注销 包 (并且 释放 已 分 配给 进程 的 资源 )。 l 
— N 
打开 一 个 连接 
对 于 两 个 成 功 地 创建 一 个 虚 电 路 (或 者 连接 ) 的 进程 ， 它 们 中 的 一 个 必须 扮演 主动 进程 的 角色 ， 而 另 
一 个 是 被 动 进程 。 在 与 电话 的 类 比 中 ， 主 动 进程 是 请 求 连接 的 实体 (“提出 呼叫 ”)， 被 动 进程 接受 呼叫 
(“应 答 ”)。 图 15-23 中 的 代码 段 表示 了 一 个 主动 进程 打开 一 个 TCP 连接 的 行为 ， 图 15-24 中 的 代码 段 表示 
了 被 动 进 程 的 行为 。 





一 | #include <sys/types.h> 

#include <sys/socket .h> 

#include <netinet/in.h> 

#include <netdb.h> 

/* The active (client) process */ 

int main (int argc, char *argv[]) { 
int skt, port; 
char serverHostName[HOSTNAMELEN ] ; 
struct hostent *host; 
struct sockaddr passive; 
struct protoent *protocol; 


#ifdef WINDOWS 
/* Begin WinSock only */ 
WORD versionRequested; 
WSADATA wsaData; 
versionRequested = MAKEWORD(..., ...); 
WSAStartup(versionRequested, &wsaData); 
/* End WinSock only */ 
#endif /*WINDOWS*/ 
/* Get server name, serverHostName */ 
/* Get the port number, port */ 


/* Set up a socket & address to talk to the server */ 
protocol = getprotobyname(”tcp”); 
skt = socket (AF_UNIX, SOCK STREAM, protocol->p proto); 
host = gethostbyname(serverHostName) ; 
bzero(&passive, sizeof(passive) ); 
passive.sin family = host->h_addrtype; 
passive.sin_port = htons(port); 
beopy(host->h_addr, &passive.sin_addr, host->h_length); 
if(connect(skt, &passive, sizeof(passive))) { 





printf(“Connect error ... restart\n”); 
printf("“(Must start Server end first)\n"); 
exit(1); 
}; 
` /* The connection is ready for use ... */ 


/* All done - tear down the circuit */ 
close(skt); 
#ifdef WINDOWS 
WSACleanup(); // WinSock only 
#endif /*WINDOWS*/ 
} 





图 15-23 打开 一 个 连接 时 的 主动 进程 
注 : 主动 进程 初始 化 建立 连接 ， 它 确定 被 动 参加 者 的 (nH, ，host# ，part# )， 然 后 发 出 一 个 cannect () 请 求 。 
connect () 调用 并 不 会 返回 直到 连接 被 显 式 地 接受 或 拒绝 。 在 连接 使 用 结束 后 ， 它 用 close () 系统 调用 删除 
套 接 字 来 释放 连接 。 
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a The passive (server) process */ 

int main(int argc, char *argv[]) { 
char serverHostName[HOSTNAMELEN ]; 
int port, activeLen, newSkt, skt; 
struct sockaddr *active, passive; 
struct hostent *host; 


#ifdef WINDOWS . 

/* Begin WinSock only */ 

WORD versionRequested; 

WSADATA wsaData; 
versionRequested = MAKEWORD(..., ...); 
WSAStartup(versionRequested, twsaData); 

/* End WinSock only */ 

endif /*WINDOWS*/ 

/* Get the server host name, serverHostName */ 

/* Get the port number, port */ 


/* Set up a socket for listening */ 

skt = socket (AF_INET, SOCK_STREAM, 0); 

host = gethostbyname(serverHostName ) ? 

bzero(&passive, sizeof (passive) ); 

passive.sin family = host->h_addrtype; 

passive.sin_ port = htons(port); 

beopy(host->h_addr, &passive.sin_addr, host->h_length); 
/* Bind the listener’s name */ 


if(bind(skt, &passive, sizeof(passive))) { 
printf(“Bind error ... restart\n”); 
exit(1); 


} 
/* Now begin waiting for a request */ 
- listen(skt, BACKLOG); 
/* Wait for client requests */ 
activeLen = sizeof(active); 
newSkt = accept(skt, &active, sactiveLen); 
close(skt); /* Release extra socket */ 
/* Use newSkt for the connection */ 


/* Disconnect */ 

close(newSkt); 
#ifdef WINDOWS 

WSACleanup(); // WinSock only 
#endif /*WINDOWS*/ 


} 
L 








| 图 15-24 ”打开 一 个 连接 时 的 被 动 进程 
È: 被 动 参加 者 等 候 连 接 请 求 ， 它 建立 套 接 字 来 监听 连接 请 求 ， 然 后 在 accept () 调用 上 阻塞 。 当 主动 进程 进行 
connect () WAR}, accept () 与 远程 端 进行 同步 来 建立 连接 (这 和 图 15-19 是 相同 的 代码 序列 )。 在 进程 完 
成 连接 的 使 用 后 ， 它 用 close () 系统 调用 删除 套 接 字 来 释放 连接 。 
两 个 代码 段 中 都 使 用 互联 网 域 和 TCP 创建 了 一 个 套 接 字 。 主 动 进程 然后 在 struct sockaddr passive 中 创 
建 了 一 个 被 动 进程 的 互联 网 地 址 ， 因 此 它 能 够 初始 化 连接 操作 。connect () 调用 指定 了 主动 进程 的 套 接 字 及 
被 动 进程 的 < net, host, pert> 。 主 动 进程 在 connect () 调用 时 被 阻塞 ， 直 到 要 么 被 动 进程 接受 了 连接 请 求 ， 
要 么 主动 进程 的 操作 系统 确定 调用 失败 ， 并 因此 而 返回 一 个 错误 代码 。 该 错误 代码 可 能 来 自 于 各 种 条 件 ， 包 
括 计 时 器 超时 ( 即 被 动 进程 在 某 个 预定 的 时 间 间 隔 内 一 一 例如 1 分 钟 ， 没 有 接受 连接 请 求 ) 。 
被 动 进程 创建 了 一 个 套 接 字 ， 用 于 从 主动 进程 接受 一 个 连接 请 求 。 由 于 它 将 在 这 个 套 接 字 上 接收 信 
息 ， 因 而 它 必 须 在 主动 进程 试图 与 它 连 接 之 前 绑 定 该 套 接 字 。1listen O 调用 告诉 操作 系统 应 该 允许 的 被 
动 进程 的 连接 请 求 队列 项 的 最 大 数目 ， 通 常 是 请 求 一 个 常量 BACKLOG, accept () 调用 获取 在 skt 上 的 连 
接 请 求 ， 但 它 创 建 了 另 一 个 套 接 字 newSkt， 然 后 使 得 连接 在 newSkt 上 建立 。 被 动 进程 在 accept () 调用 
处 被 阻塞 ， 直 到 要 人 么 该 进程 被 杀 死 ， 要 么 一 个 连接 请 求 到 达 了 套 接 字 (accept () 操作 并 没有 超时 期 限 )。 
在 连接 建立 起 来 以 后 ， 因 为 连接 是 建立 在 newSkt 上 ， 所 以 最 初 的 套 接 字 kt 就 不 再 需要 了 。 最 后 两 个 进程 
都 使 用 一 个 close 操作 来 释放 连接 以 及 套 接 字 。 
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在 UNIX 中 读 取 多 个 输入 流 
talk 程序 将 需要 能 够 接收 来 自 stdin (键盘 ) 以 及 套 接 字 的 输入 。 然 而 ， 如 果 它 执行 对 stdin 的 读 操 
作 并 且 这 时 在 套 接 字 上 有 输入 到 达 ，talk 进程 将 看 不 见 网 络 数据 ， 直 到 用 户 结束 在 stdin 上 的 输入 。 反 过 
来 ， 如 果 进 程 阻 塞 在 套 接 字 的 读 操作 上 并 且 用 户 在 键盘 上 输入 信息 ， 那 么 键盘 输入 将 被 忽略 ， 直 到 有 信息 
到 达 套 接 字 且 处 理 结 束 。 这 种 情形 可 以 通过 三 种 方法 来 处 理 : (1) 通过 使 用 一 个 非 阻塞 读 操 作 (也 称 为 异 
步 的 ) 代替 正常 的 通过 stdio 库 函 数 进 行 的 阻塞 读 操 作 ，(2) 通过 使 用 select () 命令 ，(3) 通过 使 用 多 
个 线程 。 非 阻塞 read () 选 项 在 实验 9.1 中 进行 了 描述 。 
select () 命令 允许 一 个 进程 轮 询 它 的 所 有 打开 的 输入 流 ， 来 确定 哪个 输入 流 中 有 数据 。 在 调用 se- 
lect () 后 ， 进 程 可 以 确定 哪 一 个 输入 流 有 数据 ， 然 后 它 就 可 以 对 包含 数据 的 流 执行 正常 的 阻塞 读 操 作 。 
如 果 你 决定 在 解决 方案 中 使 用 这 种 方法 ， 可 以 使 用 man 页 找到 更 多 有 关 select () 的 信息 。 
在 Windows 中 读 取 多 个 输入 流 
如 同 UNIX 实现 一 样 ， 相 同 的 原则 应 用 在 Windows 的 解决 方案 中 。 不 同 之 处 在 于 ，Windows 中 控制 台 
与 UNIX 中 stdin 的 处 理 不 同 。Windows 中 对 这 个 问题 的 解决 要 求 在 你 编写 的 程序 部 分 中 有 一 些 灵活 性 。 
要 求 阅读 一 些 联机 文档 。 (GEA: CreateFile () 可 以 在 控制 台中 使 用 。 你 会 发 现 查阅 在 控制 台 I/O 包 中 
的 一 些 例 程 是 有 帮助 的 ， 它 们 位 于 联机 MSDN 文档 的 “Console and Port 1/0” 下面 。) 
解决 问题 
你 的 解决 方案 框架 应 该 基于 一 个 客户 进程 和 一 个 服务 器 进程 ， 其 中 客户 使 用 connect () 系统 调用 来 初 
始 化 talk 会 话 ， 并 且 服 务 器 将 accept () 它 。 因 而 服务 器 开始 的 状态 应 该 为 ， 当 客户 发 出 一 个 连接 请 求 
时 它 能 够 接受 该 请 求 。 
客户 和 服务 器 的 角色 在 talk 会 话 开始 的 时 刻 是 重要 的 ,但 一 旦 会 话 已 经 建立 ， 则 每 个 进程 都 可 以 临 
时 假定 为 客户 的 角色 (发 送信 息 到 另 一 个 进程 )。 如 果 在 单个 机 器 中 使 用 talk， 你 会 注意 到 UNIX 的 talk 
程序 并 不 区 分 哪 一 个 进程 是 客户 : 如 果 两 个 用 户 在 同一 时 刻 输 入 ， 那 么 信息 被 传送 的 次 序 是 任意 的 。 你 不 
需要 关心 解决 两 个 人 之 间 的 这 种 “无 序 的 ”通信 ， 因 为 这 部 分 协议 不 被 talk 关注 。 
因此 在 解决 方案 中 ， 将 要 求 你 应 用 客户 - 服务 器 体系 结构 来 建立 talk 会话， 并 且 在 连接 建立 以 后 ， 
进程 相互 之 间 必 须 使 用 字 节 流 在 网 络 上 进行 真正 的 进程 通信 。 
下 面 为 你 打算 构造 的 解决 方案 提出 几 点 建议 : 
里 只 编写 一 个 talk 应 用 程序 。 在 连接 建立 之 后 ， 客 户 和 服务 器 都 可 以 使 用 它 。 
mE CR TCP 连接 能 够 工作 。 先 在 一 个 机 器 中 使 得 两 个 进程 间 的 连接 可 以 工作 。 让 服务 器 系统 
选择 一 个 端口 号 ， 然 后 在 运行 时 刻 告诉 客户 端 该 端口 号 。 在 你 使 这 些 能 正常 工作 后 ， 保 证 你 的 代码 
在 网 络 上 的 两 个 机 器 间 也 能 工作 。 
B 在 这 个 阶段 的 工作 中 ， 让 你 的 客户 程序 作为 发 送 进程 向 连接 服务 器 发 送 几 个 字 节 ， 临 时 让 你 的 连接 
客户 作为 数据 源 ， 并 且 在 连接 建立 起 来 后 ， 让 连接 服务 器 阻塞 在 套 接 字 的 读 操作 上 。 
m 在 程序 中 增加 代码 ， 使 talk 程序 可 以 读 取 stdin (使 用 阻塞 的 read) ， 然 后 传送 信息 到 其 他 程序 中 。 
随后 进行 设计 和 调试 ， 使 每 个 进程 可 以 交替 地 读 取 来 自 stdin 的 数据 行 和 来 自 套 接 字 的 信息 。 
BRCM talk 程序 ， 使 它 使 用 非 阻塞 读 操 作 ， 或 者 使 用 select O 系统 调用 ， 这 样 它 就 不 会 被 了 
塞 在 输入 流 上 了 。 l 


第 16 章 远程 文件 


网 络 技术 是 分 布 式 计算 能 够 进行 的 基础 。 在 一 个 计算 机 网 络 中 ， 进 程 之 间 能 够 以 高 于 传统 的 串 行 通信 
设备 3 个 或 更 多 数量 级 的 带宽 进行 通信 。 最 快 的 网 络 可 能 接近 机 器 内 部 总 线 传 输 的 通信 速率 。 软 件 如 何 来 
利用 这 些 高 额 的 带宽 呢 ? 

作为 分 布 式 计算 的 第 一 种 方法 ,操作 系统 设计 者 将 网 络 和 文件 抽象 结合 起 来 形成 了 远程 文件 (remote 
file) 的 思想 。 通 过 使 用 远程 文件 ， 应 用 就 可 以 读 写 远程 机 器 上 的 信息 ， 这 就 好 像 文件 存储 在 本 地 存储 设备 
一 样 。 今 天 ， 远 程 文件 仍然 是 我 们 如 何 实 现 粗 粒度 分 布 的 一 个 重要 部 分 。 在 本 章 中 ， 你 将 了 解 到 如 何 设计 
操作 系统 来 将 文件 系统 分 布 在 网 络 上 的 不 同 机 器 上 。 有 三 种 常用 的 策略 : 第 一 种 策略 是 文件 管理 器 与 远程 
机 器 上 的 存储 设备 交互 ; 第 二 种 策略 要 求 文件 管理 器 功能 被 分 布 到 本 地 和 远程 的 机 器 上 ; 第 三 种 策略 是 让 
操作 系统 透明 地 从 远程 机 器 中 拷贝 文件 ， 并 保持 多 个 拷贝 的 一 致 性 ， 并 且 当 文件 被 关闭 时 将 存储 内 容 拷贝 
到 它 最 初 的 机 器 中 。 


16.1 通过 网 络 共享 信息 


当局 域 网 技术 在 1980 年 变 得 可 行 时 ， 这 对 操作 系统 设计 者 提出 了 一 个 挑战 : 如 何 对 操作 系统 进行 重 
新 设计 ， 使 得 它 可 以 更 好 地 利用 局 域 网 技术 呢 ? 计算 机 通过 局 域 网 交换 信息 的 速率 要 比 通过 串 行 口 快 一 万 
倍 (在 以 太 网 上 为 10"bps， 在 交换 电话 网 络 中 为 104 bps)。 设 计 者 考虑 了 存在 的 抽象 模型 的 两 个 基本 扩展 : 

m 新 的 应 用 应 该 设计 成 一 组 合作 顺序 进程 ， 需 要 操作 系统 对 网 络 进行 抽象 ， 使 得 它 可 以 用 于 同步 和 

IPC， 操 作 系统 设计 者 的 一 个 阵营 追求 这 种 目的 (我 们 将 在 第 17 章 介绍 他 们 的 工作 )。 

m 虚拟 机 的 存储 部 件 可 以 分 区 并 分 布 在 网 络 上 。 如 图 16-1 所 示 ， 主 存 或 辅 存 可 以 放置 在 远程 机 器 上 。 
即使 局 域 网 的 节拍 相对 较 快 ， 放 置 在 远程 服务 器 上 的 主 存 存 取 的 速度 还 是 没有 在 本 地 机 器 上 快 〈 然 
而 ， 远 程 存储 器 的 思想 在 20 世纪 90 年 代 开始 变 得 可 行 ， 我们 将 在 第 17 章 看 到 )。 操 作 系 统 设计 者 
的 第 二 个 阵营 开始 着 重 于 基于 远程 辅 存 思想 的 操作 系统 。 我 们 将 在 这 章 中 研究 他 们 的 工作 。 





图 16-1 远程 存储 


TE: 一 种 网 络 开发 的 尝试 是 将 主 存 或 辅 存 存放 于 远程 计算 机 上 ， 远 程 存 储 可 以 很 大 并 被 共享 。 额 外 的 存储 开销 
可 以 分 挫 到 所 有 客户 机 器 上 。 ' 
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我 们 从 冯 ' 诺 依 曼 计算 机 的 所 有 存储 接口 开始 讨论 : 主 存 和 辅 存 为 底层 的 存储 机 制 提供 了 不 同 的 接口 
( 见 图 16-2)。 主 存 接口 (primary memory interface ) 被 用 于 以 基于 字 节 的 形式 来 访问 可 执行 存储 器 (参见 
第 4 章 )， 操 作 系统 设计 者 通过 第 11 章 中 所 描述 的 地 址 空间 结构 扩展 这 个 模型 。 虚 拟 存储 系统 使 用 主 存 接 
口 来 提供 对 辅 存 设备 的 访问 ， 辅 存 实现 于 大 量 的 存储 设备 上 。 在 多 道 程序 设计 系统 中 ， 操 作 系 统 不 允许 进 
程 使 用 设备 驱动 接口 来 读 写 存储 设备 ， 所 以 它 可 以 管理 辅 存 的 共享 与 隔离 。 相 反 ， 应 用 使 用 文件 系统 接口 
来 读 写 辅 存 ， 它 是 作为 一 组 有 名 字 节 流 形式 来 访问 的 。 





文件 系统 接口 


图 16-2 传统 的 存储 接口 
注 : 冯 : 诺 依 曼 计算 机 体系 结构 定义 了 一 个 对 主 存 的 接口 和 一 个 对 辅 存 (存储 设备 ) 的 接口 。 我 们 在 第 2、11 和 12 章 讨 
论 了 主 存 接口 。 第 5 章 涉及 了 辅 存 的 设备 驱动 程序 接口 ,第 13 章 讨论 了 辅 存 的 文件 系统 接口 。 远 程 文件 使 用 文件 
系统 接口 。 


远程 文件 系统 的 目标 就 是 ， 一 个 机 器 上 的 客户 代码 可 以 使 用 文件 系统 接口 来 读 写 另 一 个 机 器 上 的 畏 
存 。 图 16-3 解释 了 如 何 使 用 远程 文件 来 交换 信息 。 计 算 分 为 部 分 1 和 部 分 2， 部 分 1 执行 分 布 式 计算 的 一 
部 分 ， 然 后 将 中 间 结 果 写 人 “toPart2” 文 件 。 一 旦 部 分 1 完成 了 计算 的 最 初 阶段 ， 部 分 2 就 开始 执行 。 首 
先 ， 它 读 取 toPart2 文件 来 从 部 分 1 中 得 到 中 间 结 果 。 在 部 分 2 完成 了 它 的 计算 部 分 后 ， 它 将 新 的 结果 写 
入 toPart] 文件 。 部 分 1 然后 恢复 执行 ， 使 用 部 分 2 建立 的 存储 在 文件 toPart1 中 的 信息 。 这 种 方法 不 灵活 而 
且 很 慢 , 更 糟糕 的 是 ， 它 不 允许 部 分 1 和 部 分 2 同时 执行 ， 意 味 着 它 基 本 上 没有 加 速 计算 机 的 运行 。 

在 我 们 进入 远程 文件 系统 设计 之 前 ， 先 来 看 看 从 点 到 点 网 络 到 当代 网 络 方法 的 发 展 中 ， 远 程 文件 技术 的 发 展 。 





fl=open(toPart2, ...); 


while(...){ f2=open(toPart2; ~. V; 
write(fl, ...); while(...) { 
} read(f1, ...); 
close (f1); 
close (f1) ; 
f2=open(toPartl, ...); f2=open(toPartl, ...); 
while(...) { while(...){ 
read(f2, ...); viteti s)5 
} 
close (£2); close (f2); 


图 16-3 使 用 文件 进行 分 布 式 计算 
TE: 文件 可 以 作为 粗 粒 度 的 IPC 机 制 。 此 处 ， 分 布 式 计算 的 部 分 1 计算 出 中 间 结 果 ， 然 后 将 结果 作为 文件 发 送 
给 部 分 2。 后 来 ， 部 分 2 将 另 一 个 结果 文件 返回 给 部 分 1。 
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16.1.1 显 式 的 文件 复制 系统 


文件 是 进程 间 共 享 的 传统 单元 。 一 个 进程 所 生成 的 信息 可 以 写 到 一 个 文件 中 ， 然 后 该 文件 被 另 一 进程 
所 使 用 。 信 息 也 可 以 以 文件 的 形式 通过 通信 网 络 ， 从 一 个 机 器 拷贝 到 另 一 个 机 器 中 ， 从 而 在 机 器 间 共 享 。 
在 典型 的 广域网 通信 系统 中 ， 如 ARPA 网 中 ， 显 式 文件 拷贝 操作 是 在 机 器 间 有 效 地 实现 共享 的 最 通用 机 
制 。 当 本 地 机 器 中 的 一 个 进程 需要 从 一 个 远程 机 器 中 的 进程 得 到 信息 时 ， 远 程 进 程 就 把 信息 写 到 一 个 文件 
中 ， 然 后 用 户 使 用 命令 明确 地 从 远程 机 器 中 将 该 文件 拷贝 到 本 地 机 器 中 。 

在 这 种 方法 中 ，shell 命令 用 来 将 文件 从 一 个 位 置 拷贝 到 另 一 个 位 置 。 在 实现 这 些 命令 时 ， 有 两 个 主要 的 问题 : 

m 在 本 地 机 器 上 执行 命令 的 进程 必须 在 远程 机 器 上 有 一 个 对 等 的 进程 。 这 是 一 个 协作 分 布 式 计算 问题 。 

e 本 地 程序 必须 能 唯一 地 访问 位 于 另 一 台 机 器 上 的 文件 。 这 是 一 个 全 局 名 字 空 间 问 题 。 

由 于 我 们 对 网 络 的 了 解 〈 见 第 15 章 ) ， 因 此 很 容易 明白 问题 的 协作 分 布 式 计算 部 分 可 以 用 客户 - 服务 
器 分 布 式 计算 模型 来 解决 ( 见 图 16-4). 

1) 客户 进程 执行 本 地 shell 命令 ， 如 get <file_ name> 。 实 现 命令 的 程序 打开 到 服务 器 的 TCP 连接 ， 
然后 将 文件 复制 命令 传递 到 服务 器 进程 。 

2) 服务 器 进程 对 命令 进行 解 包 ， 打 开 文件 FILE_A， 并 将 它 拷贝 回 客户 。 

操作 系统 设计 者 可 以 很 快 地 对 协作 式 分 布 计算 问题 提供 一 个 满意 的 解决 方案 ,事实 上 ， 由 应 用 来 建立 
客户 一 服务 器 模型 也 是 合理 的 。 然 而 ， 命 名 问题 的 设计 需要 反复 考虑 。20 世纪 70 年 代 以 来 ， 有 两 个 典型 
的 解决 方案 的 例子 : ARPA 网 的 ftp 和 UNIX 的 uucp 命令 ( 详 见 下 面 )。 尽 管 uucp 不 再 使 用 了 ,但 ftp H 
在 仍然 在 广泛 地 使 用 。 

也 有 一 些 其 他 的 手工 文件 传输 包 在 异 构 网 络 中 使 用 。( 异 构 网 络 具 有 不 同 的 主机 类 型 。) ISO OSI 文件 
传输 、 访 问 和 管理 协议 (FTAM) 是 手工 文件 传输 的 官方 ISO OSI 机 制 ， 尽管 telnet 和 ftp (现在 是 
HTTP) 被 更 广泛 地 使 用 。 


@ get FILE_A 


FILE_A 





控制 流 
一 ~ 数据 流 


图 16-4 客户 一 服务 器 手动 文件 拷贝 


TE: 协作 的 客户 和 服务 器 进程 可 以 将 文件 从 服务 器 拷贝 到 客户 。 客 户 请 求 一 个 特定 的 文件 ， 服 务 器 作出 反应 并 
将 文件 拷贝 回 客户 。 


UNIX 的 uucp 命令 

UUCP (Unix to Unix CoPy) 是 一 个 UNIX 程序 ， 它 使 用 串 行 通 信 设 备 和 拨号 的 调制 解 调 器 来 交换 文 
件 。UUCP 的 用 户 接 口 程 序 是 wzcp。UUCP 使 用 机 器 的 系统 管理 员 所 定义 的 一 个 路 由 表 , 来 访问 另 一 个 机 
器 中 的 UUCP 程序 并 且 来 回 拷贝 文件 。 

UNIX 中 的 uucp 命令 除了 在 拷贝 的 一 个 源 或 目标 路 径 名 中 有 一 个 远程 机 器 外 ， 与 本 地 cp 命令 有 相同 
的 外 部 特性 。 远 程 文件 名 的 形式 如 下 : 


system_ name_ 1! system_name_2! … system_name_N! N_ pathname 


其 中 每 个 system_ name 是 存储 在 UUCP 路 由 表 中 的 UNIX 机 器 的 名 字 。 如 果 在 远程 文件 名 中 有 多 个 sys- 
tem_ name， 那 么 它们 就 定义 了 从 system_name_ 1 3) system_ name 2， 并 且 一 直到 system name 的 一 
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条 路 径 。 其 中 的 N_ pathname 定义 了 文件 在 机 器 system_ name _ N 的 文件 系统 中 的 位 置 。 

每 个 系统 都 可 以 对 UUCP 操作 进行 认证 ， 因 而 UUCP 通常 用 于 从 一 个 远程 主机 中 读 取 一 个 文件 (而 
不 是 将 文件 写 到 远程 主机 上 )。 如 果 打 算 写 一 个 文件 到 远程 主机 ， 那 么 保护 设置 可 能 只 允许 用 户 在 远程 机 
器 上 登录 ， 并 县 通过 uucp 对 原来 本 地 机 器 的 文件 进行 操作 来 完成 。 

UUCP 已 经 被 更 新 的 命令 所 替代 ， 它 们 运行 在 更 现代 化 的 网 络 环境 下 ,包括 ftp. rep 和 rdist。 在 这 
些 命令 中 ， 通 过 提供 一 个 DNS 主机 名 访问 远程 主机 ， 并 且 有 那个 主机 中 的 绝对 路 径 名 才能 访问 文件 。 

ARPA 网 的 文件 传输 协议 

文件 传输 协议 (FTP) 可 以 从 用 户 接 口 来 激活 一 一 例如 ，UNIX 系统 和 Windows 系统 中 的 ftp 程序 可 
以 在 网 络 上 的 主机 之 间 ， 使 用 TCP/IP 协议 显 式 地 拷贝 文件 。 如 上 面 描述 的 通用 解决 方法 中 ， 支 持 FTP 的 
主机 启动 一 个 服务 器 进程 来 接收 服务 请 求 ， 当 一 个 应 用 进程 准备 使 用 FTP 时 ， 它 就 在 本 地 机 器 中 执行 ftp 
的 客户 端 代码 。 客 户 代 码 与 远程 服务 器 进程 进行 交互 来 完成 文件 传输 操作 。 

FTP 使 用 一 个 控制 连接 以 及 用 于 文件 传输 的 一 个 数据 连接 。 服 务 器 期 望 最 初 的 服务 请 求 到 达 公 共 端 口 
21， 因 而 当 一 个 客户 希望 使 用 FTP 时 ， 它 的 TCP 连接 请 求 被 导向 到 < 之 net##, host#,21> 。 这 需要 防火 墙 
机 器 允许 两 个 主机 通过 端口 21 进行 通信 。 

当 要 进行 文件 拷贝 或 者 客户 获取 所 在 目录 的 文件 列表 时 ， 数 据 就 可 以 在 客户 与 服务 器 之 间 进 行 传输 。 
每 次 客户 发 出 一 个 命令 都 会 引起 这 种 数据 传输 ， 这 时 需要 打开 一 个 数据 连接 来 保证 传输 。 在 FTP 会 话 期 
人 间 ， 数 据 连 接 可 能 被 多 次 打开 和 断 开 ， 这 取决 于 命令 的 特征 。 

FTP 是 一 个 相对 简单 的 客户 - 服务 器 程序 ， 在 很 多 地 方 都 有 很 好 的 文档 说 明 ， 包 括 在 Stevens [1994， 
Ch. 27] 的 著作 中 。FTP 对 命名 问题 的 解决 方法 是 使 用 IP 地 址 和 DNS 来 隐 式 地 建立 一 个 共享 全 局 名 字 空 
间 ; 通过 让 远程 用 户 显 式 地 指定 DNS 名 字 或 IP (net# ，host# ) ， 文 件 就 可 以 传输 到 远程 机 器 上 。 这 人 允许 
ftp 客户 开始 与 指定 位 置 的 ftp 服务 器 进行 交互 。 


16.1.2 无 缝 文件 系统 接口 


现代 远程 文件 系统 试图 使 手动 远程 文件 复制 操作 变 得 无 关 紧要 ， 相 反 ， 尽 管 文件 存储 在 远程 机 器 上 ， 
操作 系统 还 是 提供 了 对 执行 远程 文件 操作 的 函数 。 目 前 使 用 的 主要 方法 是 图 16-5 所 示 的 方法 : 思想 是 程 
序 使 用 通用 的 文件 API 来 对 远程 文件 执行 
操作 ， 但 是 文件 名 反映 出 了 文件 到 底 是 本 
地 的 还 是 远程 的 。 

对 于 对 远程 文件 的 普通 操作 ， 远 程 文 
件 需 要 和 其 他 的 低级 文件 格式 有 一 定 程度 
的 兼容 性 ( 见 2.2 节 )。 为 了 和 UNIX 和 
Windows 文件 兼容 ， 远 程 文件 可 看 作 是 可 
被 逻辑 读 写 头 访问 的 有 名字 节 流 。 文 件 组 
织 和 属性 必须 保持 在 文件 的 外 部 描述 表 中 。 
如 第 2 章 和 第 13 章 所 描述 的 ， 低 级 文件 上 
的 基本 操作 是 open ()、close ()、read 
()、write () 和 seek ()。 文 件 管理 器 必 
须 使 用 网 络 协议 和 远程 服务 器 上 的 协作 计 
算 来 完成 每 个 功能 。 

例如 ， 如 果 在 IP 地 址 为 128.138.148. 
158 的 远程 机 器 上 有 一 个 文件 ， 则 应 用 程 
序 可 以 执行 POSIX 风格 的 系统 调用 如 : 

open (“ 128.138.148.158: /usr/local/ 
foo/bar”, O _ RDONLY); 








图 16-5 ”对 远程 辅 存 使 用 文件 系统 接口 
注 : 设计 文件 管理 器 使 得 它 可 以 区 别 本 地 和 远程 文件 。 局 部 文 
件 访问 像 通常 那样 处 理 ， 但 是 远程 文件 系统 调用 被 本 地 客 
尽管 我 们 在 这 个 例子 中 为 文件 名 制定 了 语 户 接口 转发 到 远程 文件 服务 器 上 。 
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法 ， 关 键 是 远程 文件 的 open () 函数 和 本 地 文件 的 open () 函数 是 相同 的 ， 文 件 名 字符 串 区 分 了 目标 文件 
是 本 地 文件 还 是 远程 文件 。 

我 们 可 以 利用 UNIX 风格 mount 操作 的 网 络 版 本 ( 见 16.5 节 ) 来 使 得 远程 文件 名 在 语法 上 和 本 地 文 
件 名 是 相同 的 。 在 这 种 情况 下 ， 文 件 位 置 对 程序 员 和 用 户 完全 是 透明 的 ， 当 然 系统 需要 用 合适 的 mount 命 
令 来 进行 配置 。 

如 何 实现 这 种 思想 呢 ? 在 13.7 节 中 ， 你 了 解 到 Linux 文件 管理 器 分 成 文件 系统 相关 部 分 和 无 关 部 分 
两 部 分 来 设计 ( 见 图 16-6， 是 图 13-25 的 修改 版 ) 。 现 代 远 程 文件 管理 器 使 用 相同 的 设计 (事实 上 ，Linux 
文件 管理 器 支持 远程 文件 功能 )。 管 理 器 的 文件 系统 无 关 部 分 实现 了 系统 调用 接口 和 与 特定 文件 系统 细节 
无 关 的 其 他 行为 。 文 件 系 统 相关 部 分 实现 了 与 特定 文件 系统 细节 相关 的 功能 ， 如 读 写 外 部 文件 描述 表 、 字 
节 流 编码 /解码 、 块 管理 等 。 


操作 系统 API 
文件 管理 器 的 文件 
系统 无 关 部 分 


虚拟 文件 系统 开关 表 











图 16-6 基于 VFS 的 文件 管理 器 
TE: 基于 VES 的 文件 管理 器 被 分 成 文件 系统 相关 部 分 和 文件 系统 无 关 部 分 。 无 关 部 分 实现 了 一 般 的 操作 (如 列 
举目 录 内 容 )。 像 其 他 的 文件 系统 相关 组 件 ， 远 程 文件 客户 端 处 理 与 外 部 文件 系统 (在 不 同 的 机 器 上 ) 交互 
的 细节 。 


类 VES 体系 结构 是 构建 远程 文件 系统 的 主要 模型 ( 它 最 初 使 用 在 Sun NFS 和 System V UNIX 中 )。 远 
程 文件 服务 是 将 文件 系统 相关 部 分 组 织 为 分 布 式 软件 ,一 部 分 执行 在 客户 端 , 另 一 部 分 在 远程 文件 服务 器 上 
执行 。 从 文件 系统 的 无 关 部 分 来 看 ,远程 文件 系统 就 像 任 何其 他 的 文件 系统 相关 组 件 , 因 为 它 提供 了 其 他 相 
关 组 件 导出 的 相同 功能 。 然 而 ,每 个 函数 是 通过 远程 文件 客户 和 服务 器 间 的 协作 、 分 布 式 计算 来 实现 的 。 


16.1.3 La 


图 16-7 是 图 16-5 和 图 16-6 中 思想 的 细 化 ， 如 上 所 述 ， 文 件 系统 相关 组 件 被 分 成 客户 部 分 和 服务 器 部 
分 。 远 程 文件 客户 (remote file client) 在 客户 机 上 执行 ， 并 被 文件 管理 器 的 文件 系统 无 关 部 分 调用 。 远 程 
文件 服务 器 (remote file server) 在 包含 辅 存 的 远程 机 器 上 执行 。 远 程 文件 客户 和 服务 器 一 起 工作 来 提供 想 
要 的 文件 系统 服务 。 设 计 远 程 文件 管理 器 的 关键 问题 是 确定 什么 功能 应 该 在 远程 文件 客户 上 实现 ， 什 么 功 
能 在 服务 器 上 实现 。 

在 远程 文件 客户 一 方 ， 我 们 知道 需要 包含 代码 来 与 文件 管理 器 的 无 关 部 分 交互 ， 我 们 也 知道 远程 文件 
客户 和 服务 器 需要 为 交换 命令 和 数据 达成 一 致 协议 。 在 服务 器 一 方 ， 远 程 文件 服务 器 在 服务 器 的 存储 设备 
上 执行 操作 ， 然 后 将 结果 返回 给 远程 文件 客户 。 现 在 ， 我 们 有 一 个 工程 设计 问题 : 为 了 满足 整个 系统 的 目 
标 ， 远 程 文件 系统 相关 功能 的 剩余 部 分 的 分 布 由 成 本 和 性 能 的 开销 来 确定 。 具 体 目标 有 最 小 化 文件 访问 时 
间 、 网 络 流量 、 失 败 的 重 试 间隔 以 及 其 他 的 准则 。 

一 旦 选择 了 目标 准则 ， 则 划分 就 可 以 基于 成 本 和 性 能 来 确定 。 这 将 导致 非常 多 的 细节 问题 如 ; 什么 
网 络 协议 最 适合 于 分 布 式 文件 管理 器 ? 分 布 式 文件 管理 器 可 提供 可 接受 的 性 能 吗 ? 在 这 样 的 配置 中 ， 网 络 
和 服务 器 的 可 靠 性 能 得 到 保证 吗 ? 
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远程 文件 系统 的 文件 系统 相关 部 分 





图 16-7 远程 文件 客户 和 服务 器 
注 : 文件 管理 工作 分 布 在 客户 机 和 服务 器 间 。 远 程 文件 客户 将 文件 系统 无 关 请 求 转换 成 合适 的 工作 提交 给 远程 
文件 服务 器 ， 然 后 将 结果 从 服务 器 传 回 给 核心 文件 管理 器 。 


在 最 近 的 15 年 里 ， 有 三 种 划分 文件 系统 功能 分 布 的 策略 被 广泛 采用 : 

m 让 服务 器 实现 远程 磁盘 的 功能 。 这 意味 着 客户 - 服务 器 接口 ， 就 类 似 于 一 个 带 有 本 地 磁盘 驱动 程序 
的 本 地 文件 系统 接口 。 在 这 种 情形 中 ， 客 户 机 器 从 磁盘 服务 器 中 读 写 磁盘 块 。 整 个 文件 系统 功能 基 
本 上 在 客户 端 实现 ， 很 少 部 分 在 服务 器 实现 。 这 种 方法 最 少 化 了 设计 /实现 成 本 ， 并 且 是 非常 可 靠 
的 。 然 而 ， 它 的 网 络 性 能 相对 来 说 较 低 。 远 程 磁盘 在 16.2 节 中 进行 描述 。 

m 将 大 部 分 的 功能 分 布 在 服务 器 中 实现 。 例 如 ， 远程 文件 服务 器 可 以 基于 文件 描述 表 中 的 信息 进行 文 
件 请 求 服务 。 客 户 一 服务 器 接口 是 一 个 内 部 接口 ， 与 正常 的 本 地 文件 系统 中 所 使 用 的 接口 不 同 。 造 
成 这 种 差异 的 原因 是 由 于 传统 的 文件 管理 器 基本 上 被 划分 成 两 个 模块 ， 一 个 在 客户 端的 远程 访问 模 
块 中 实现 ， 另 一 个 在 服务 器 的 远程 辅 存 模块 中 实现 。 这 种 方法 称 为 远程 文件 服务 器 方法 ， 它 比 远程 
磁盘 有 更 好 的 响应 和 网 络 性 能 ， 但 是 当 它 崩 溃 时 很 难 恢复 。 远 程 文件 服务 器 在 16.3 节 中 描述 。 

E 在 客户 和 服务 器 端 进行 协作 的 文件 管理 器 实现 文件 的 隐 式 拷贝 。 当 文件 被 打开 时 ， 远 程 访 问 操作 从 
远程 存储 器 中 获得 文件 的 一 份 拷贝 存放 于 本 地 。 在 文件 缓存 方法 中 ,文件 服务 器 是 一 个 完全 的 文件 
系统 ， 它 提供 了 文件 操作 一 级 的 服务 ， 如 拷贝 和 删除 文件 。 文 件 缓存 系统 保持 了 为 客户 所 做 的 不 同 
文件 拷贝 的 位 置 ， 并 管理 这 些 拷 贝 ， 使 得 它们 的 内 容 相 互 一 致 。 信 息 缓 存 和 一 致 性 的 思想 在 11.5 
节 中 引出 。 这 是 一 个 等 价 的 问题 ， 这 里 必须 确保 每 个 文件 的 一 致 性 ， 而 不 是 变量 或 信息 块 。 因 为 信 
息 容 器 特征 的 巨大 差别 ， 文 件 缓存 中 用 来 确保 一 致 性 的 技术 不 同 于 块 缓存 使 用 的 技术 。 这 方面 研究 
在 16.4 节 中 描述 。 


16.2 远程 磁盘 系统 


在 20 世纪 80 年 代 ， 磁 盘 设 备 的 开销 是 工作 站 中 主要 的 硬件 开销 。 今 天 ， 磁 盘 设 备 开 销 已 经 降低 了 ， 
因而 它 在 构架 高 性 价 比 的 个 人 计算 机 和 工作 站 时 已 不 再 是 一 个 问题 了 。20 世纪 80 年 代 的 磁盘 设备 也 会 产 
生 热 量 和 噪音 ， 因 此 有 时 在 一 个 办 公 环 境 中 放置 计算 机 是 不 可 行 的 。 这 两 种 原因 都 推动 了 在 操作 系统 中 支 
持 远程 磁盘 的 开发 。 工 作 站 配置 有 网 络 连接 但 没有 本 地 磁盘 ， 在 网 络 中 只 有 一 个 或 多 个 服务 器 机 器 中 配置 
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有 一 个 或 多 个 容量 大 、 速 度 快 的 磁盘 设备 ， 无 盘 工 作 站 如 同 使 用 自己 的 辅 存 一 样 来 使 用 服务 器 中 的 磁盘 。 

无 盘 工 作 站 不 再 是 一 个 高 性 价 比 的 解决 方案 ， 已 经 被 无 盘 的 X 终端 所 取代 ， 使 用 X 协议 与 服务 器 进 
行 交 互 ， 后 来 又 被 便宜 的 、 安 静 的 、 低 功率 的 机 器 所 取代 。 但 无 盘 工 作 站 却 在 分 布 式 计算 技术 的 发 展 中 走 
出 了 重要 的 一 步 。 即 使 在 现代 计算 机 中 采用 一 个 磁盘 驱动 器 并 不 昂贵 ， 然 而 ， 回 到 无 盘 客户 技术 的 趋势 还 
在 。 计 算 机 和 终端 制造 商 提供 了 带 有 一 个 网 页 浏览 器 和 虚拟 机 解释 器 的 网 络 计算 机 。 本 地 磁盘 变 得 没有 必 
要 ， 因 为 机 器 的 软件 可 以 存放 在 ROM 中 。 它 们 真正 的 目的 是 从 网 络 得 到 数据 ， 而 不 是 存储 和 处 理 本 地 数据 。 

自前 ， 移 动 计算 机 表现 了 无 盘 客 户 机 器 的 另 一 种 情况 。 小 型 的 通信 移动 计算 机 如 PDA 或 蜂窝 电话 是 
用 小 量 的 持久 主 存 来 设计 的 ， 允 许 移动 计算 机 存储 数量 较 少 的 指令 程序 ， 但 是 没有 什么 数据 。 这 些 移动 计 
算 机 是 无 盘 工 作 站 。 像 以 前 的 X 终 端 和 网 络 计算 机 ， 在 任意 给 定 的 时 间 ， 它 们 在 本 地 并 不 保存 信息 ， 当 必 
要 时 ， 需 要 依赖 远程 磁盘 服务 器 提供 信息 。 


16.2.1 远程 磁盘 操作 


在 远程 磁盘 方法 中 ， 客 户 负 责 几 乎 文件 管理 器 的 所 有 功能 ， 服 务 器 着 重 于 设备 管理 〈 见 图 16-8)。 远 
程 文件 客户 端 包含 了 所 有 的 文件 系统 特定 算法 和 一 个 虚拟 磁盘 驱动 器 (virtual disk driver, VDD), 文件 管 
理 器 基于 文件 系统 标识 来 区 分 本 地 和 远程 磁盘 访问 (远程 文件 被 适当 的 文件 系统 相关 模块 所 处 理 )， 访 问 
本 地 设备 使 用 本 地 磁盘 地 址 ， 访 问 远 程 磁盘 块 使 用 虚拟 磁盘 地 址 。 因 为 VDD API 允许 文件 系统 访问 存储 
设备 ， 所 以 VDD API 和 本 地 磁盘 驱动 程序 API 是 相同 的 。 但 它 又 不 同 于 本 地 磁盘 驱动 程序 ， 因 为 它 不 是 
使 用 驱动 程序 函数 调用 ， 它 使 用 网 络 将 数据 和 命令 传输 到 服务 器 上 的 远程 磁盘 应 用 程序 (remote disk appli- 
cation, RDA) (或 从 远程 磁盘 应 用 程序 接收 数据 )。RDA 从 VDD 接收 低级 命令 ， 将 它们 传递 给 服务 器 的 磁 
盘 驱 动 程序 ， 然 后 返回 结果 给 客户 VDD。 尽 管 抽象 远程 磁盘 好 像 本 地 磁盘 一 样 进行 读 写 操作 ， 但 其 他 的 
低级 磁盘 操作 (如 打开 磁盘 电源 和 关闭 磁盘 电源 ) 是 不 能 够 由 客户 机 器 发 出 的 。 


文件 系统 无 关 功能 









n 文件 描述 表 管 理 
= 编码 /解码 

n 缓冲 
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远程 磁盘 应 用 程序 


客户 机 









服务 器 






图 16-8 一 个 共享 远程 磁盘 服务 器 
注 : 远程 磁盘 服务 器 被 设计 用 来 处 理 来 自 网 络 上 客户 机 的 磁盘 级 的 请 求 。 概 念 上 ， 在 VDD 和 RDA 间 的 接口 和 
存储 设备 上 的 设备 驱动 程序 接口 是 相同 的 。 在 实际 中 ， 本 地 磁盘 接口 支持 更 多 的 功能 ， 如 磁盘 分 区 命令 。 


就 像 物理 磁盘 有 一 个 设备 地 址 和 一 组 块 地 址 ， 远 程 磁盘 有 一 个 传输 层 地 址 (net# ，host# port#) 
和 一 组 虚拟 磁盘 块 地 址 。 因 此 ，VDD 使 用 传输 层 命 名 设施 ( 见 15.6 节 ) 而 不 是 设备 标识 来 访问 服务 器 。 
当 远 程 磁盘 服务 器 初始 化 时 ， 它 将 它 的 名 字 和 传输 层 地 址 注册 到 名 字 服 务 器 中 。 初 次 访问 远程 磁盘 时 ， 客 
户 需 要 使 用 名 字 服 务 器 来 找到 远程 服务 器 的 地 址 。 它 保存 地 址 从 而 避免 后 续 访 问 的 再 次 查询 。 

VDD 将 每 个 磁盘 命令 封装 到 网 络 报 文中 ， 然 后 将 它 传递 给 磁盘 服务 器 上 的 RDA ( 见 图 16-9). RDA 
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对 报 文中 的 命令 和 数据 进行 解码 ， 然 后 产生 适当 的 请 求 给 本 地 磁盘 (基于 它 接收 到 的 命令 )。 例 如 ， 
read () 命 令 包含 了 命令 和 虚拟 磁盘 地 址 。RDA 将 虚拟 磁盘 地 址 转换 成 本 地 磁盘 地 址 ， 然 后 发 出 一 个 磁盘 
read () RE. F, wite () 命令 报 文 包 含 了 命令 、 虚 拟 磁盘 块 和 虚拟 磁盘 地 址 。 当 磁盘 服务 器 的 本 
地 磁盘 操作 完成 时 ，RDA 将 操作 的 结果 进行 解码 一 一 意味 着 wite () ZR, Me read () Rik, MAIR 





被 发 送 给 客户 机 器 。 客 户 机 器 上 的 VPD 对 结果 进行 解码 ， 并 将 它 返回 给 客户 的 文件 管理 器 。 
客户 系统 服务 器 系统 





eee (waiting for a request) _ 
file mgr: diskRequest (details); 





VDD: Pack parameters; wee 

VDD: Send request; {waiting for a request); 

“(waiting for a reply) RDA: Unpack parameters; 

` RDA: Generate local disk op; 

(Local disk op in progress) 
RDA: Disk op complete; 

wee RDA: Generate reply; 

(waiting for a reply) RDA: Send reply; 

VDD: Receive reply; (waiting for a request); 

VDD: Unpack reply parameters; eee 


VDD: Return to file mgr; 








图 16-9 ”远程 磁盘 的 客户 - 服务 器 机 器 交互 ` 
TE: 这 些 代码 段 表示 了 客户 端 VDD 和 服务 器 端 RDA 间 的 行为 。 概 念 上 ， 通 信 协 议 是 十 分 简单 的 ， 客 户 发 出 一 
个 请 求 ， 然 后 等 待 直 到 操作 完成 才能 继续 。 服 务 器 等 候 请 求 ， 处 理 它 ， 返 回 结果 ， 然 后 继续 等 待 请 求 。 


回想 第 5 章 中 所 描述 的 磁盘 驱动 程序 的 接口 特性 ， 由 于 磁盘 是 面向 块 的 设备 ， 传 送 的 单位 是 磁盘 扇 
区 。 假设 一 个 扇 区 可 以 整个 放 在 一 个 网 络 报 文中 ， 同 时 带 有 少量 的 命令 和 地 址 信息 ， 那 么 就 可 能 通过 使 用 
单个 报 文 在 客户 与 服务 器 之 间 传 输 一 个 磁盘 扇 区 。 可 以 利用 数据 报 服务 支持 这 种 应 用 ， 尤 其 是 由 于 该 服务 
比 面向 连接 协议 可 提供 更 高 的 性 能 。 

由 于 客户 和 服务 器 间 功 能 的 分 离 ， 文 件 结构 的 所 有 信息 被 保存 在 服务 器 中 。 特 别 地 ， 当 打开 文件 时 ， 
远程 文件 客户 使 用 VDD 从 存储 设备 中 取得 外 部 磁盘 上 的 文件 描述 表 ， 然 后 将 它 存 储 在 客户 的 存储 器 中 。 
例如 ， 在 UNIX 系统 中 ， 缓 存 的 inode 保存 在 客户 机 中 。 服 务 器 不 会 保持 文件 描述 表 的 副本 。 这 意味 着 所 
有 的 文件 描述 表 操 作 、 缓 冲 、 编 码 和 块 管理 都 在 客户 机 上 处 理 。 

当 用 户 在 客户 机 上 运行 程序 时 ， 程 序 从 远程 机 器 磁盘 上 (和 逐 块 地 ) 加 载 。 当 编译 器 对 程序 进行 转换 
时 ， 就 从 远程 机 器 中 的 磁盘 中 读 取 源 程序 ， 并 且 生 成 的 可 重 定位 模块 又 写 回 到 远程 机 器 的 磁盘 中 。 远 程 磁 
盘 的 位 置 是 由 系统 管理 员 来 确定 的 ， 因 而 远程 访问 逻辑 上 对 用 户 是 透明 的 ， 甚 至 文件 名 也 是 透明 的 。 尽 管 
远程 磁盘 访问 是 透明 的 ， 但 在 实现 对 一 个 远程 磁盘 上 文件 访问 的 请 求 时 ， 用 户 可 以 感觉 到 这 一 过 程 ， 这 取 
决 于 本 地 磁盘 与 远程 磁盘 之 间 以 及 网 络 之 间 的 相对 速率 。 

远程 磁盘 体系 结构 比较 简单 ， 但 它 可 能 受到 性 能 和 可 靠 性 问题 的 困扰 。 这 种 方法 足够 快 吗 ? 假设 局 域 
网 比 计算 机 总 线 可 靠 性 差 得 多 ， 那么 它们 能 够 足够 可 靠 地 传送 磁盘 访问 请 求 和 响应 吗 ? 尤其 是 在 使 用 网 络 
层 协 议 的 情形 中 。 如 果 磁 盘 服 务 器 月 溃 的 同时 而 客户 还 在 使 用 它 ， 那 么 客户 机 器 是 被 永久 地 阻塞 ， 还 是 丢 
失 它 存储 在 磁盘 中 的 数据 呢 ? 这 些 问题 将 在 下 面 讨论 。 


16.2.2 性 能 因素 


性 能 对 于 远程 磁盘 服务 器 来 说 是 一 个 重要 的 考虑 因素 。 为 了 使 远程 磁盘 服务 器 在 访问 时 间 上 可 以 与 本 
地 磁盘 竞争 ， 客 户 必须 能 够 传送 一 个 命令 给 服务 器 ， 并 在 服务 器 的 磁盘 驱动 器 上 完成 相应 的 1/0 操作 ， 然 
后 服务 器 必须 通过 网 络 返回 操作 的 结果 给 客户 ， 返 回 结果 给 客户 应 用 程序 所 花 的 时 间 要 接近 于 本 地 磁盘 的 
访问 时 间 。 . | 

远程 磁盘 服务 器 什么 时 候 会 足够 快 呢 ? 在 20 世纪 70 年 代 后 期 ， 在 一 个 远程 磁盘 服务 器 系统 中 ， 磁 盘 
操作 要 求 大 约 60 毫秒 传送 一 个 磁盘 块 ， 而 一 个 快速 的 磁盘 只 要 求 大 约 25 毫秒 。 在 那 时 候 的 一 个 实验 报告 
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中 说 明 ; 客户 机 器 与 一 个 配置 有 高 速 磁盘 的 服务 器 相连 接 ， 假 定 只 有 一 个 客户 在 使 用 服务 器 时 ， 每 个 磁盘 
块 的 传送 大 约 需要 48 毫秒 [Swinehart et al. ，1979]。( 在 这 些 实验 中 ， 客 户 与 服务 器 是 通过 一 个 以 太 网 的 
原型 进行 连接 的 ， 传 输 速率 为 3Mbps。) 然而 ， 当 2 个 客户 在 使 用 服务 器 时 ， 访 问 时 间 就 增长 到 了 76 = 
秒 ， 当 3 个 客户 在 共享 磁盘 服务 器 时 ， 访 问 时 间 就 增长 到 了 100 毫秒 。 

如 果 我 们 比较 一 个 服务 器 中 的 高 速 硬盘 与 本 地 软盘 的 速率 差别 ， 那 么 远程 磁盘 访问 可 能 要 比 本 地 磁盘 
访问 快 得 多 。 软 盘 中 的 旋转 延迟 各 寻 道 时 间 对 比 硬盘 技术 要 大 得 多 ， 因 而 网 络 开销 在 对 比 中 就 可 以 忽 
HET 

现在 的 移动 计算 机 依赖 无 线 网 络 来 进行 客户 - 服务 器 间 的 通信 。 有 趣 的 是 ， 当 代 的 无 线 网 络 提供 的 带 
宽 速 率 类 似 于 早期 局 域 网 的 速率 。 现 在 ，IBM 1GB 的 微 硬盘 (Microdrive) 被 包装 成 紧凑 闪存 形式 ， 这 意 
味 着 它 适合 作为 移动 计算 机 的 微型 磁盘 。 它 的 旋转 速率 为 3600RPM， 平 均 访问 时 间 大 约 为 15 BP, AA 
高 速 接口 的 10 000RPM 磁盘 的 平均 访问 时 间 为 S~ 10 毫秒 。 这 暗示 着 解释 远程 磁盘 可 行 性 的 1979 测量 法 
对 这 种 情况 仍然 适用 。 具 有 好 的 无 线 网 络 连接 的 移动 计算 机 能 够 访问 远程 磁盘 上 的 信息 ， 其 速度 要 比 访问 
本 地 磁盘 上 的 信息 要 快 。 

TCP 提供 可 靠 通信 的 代价 是 在 网 络 层 显 式 地 传送 应 答 报 文 。UDP E TCP 快 的 原因 就 是 它 没有 结合 任 
何 保证 可 车 传输 的 机 制 。 为 了 性 能 ， 远 程 磁盘 服务 器 设计 中 使 用 数据 报 服 务 ， 或 者 在 某 些 情 形 中 只 利用 网 
络 层 报 文 。 这 种 方法 明显 地 依赖 于 客户 端 和 服务 器 通过 指定 的 高 层 交 互 处 理 可 靠 性 的 能 力 。 

在 一 个 远程 磁盘 环境 中 ， 一 个 网 络 传输 不 可 能 允许 由 于 路 由 原因 而 在 互联 网 上 徘徊 ， 因 而 远程 磁盘 系 
统 要 求 磁盘 服务 器 和 客户 端 连 接 到 同一 个 公共 的 局 域 网 中 。 这 意味 着 网 络 根本 不 需要 路 由 功能 ， 为 客户 与 
最 务 医 所 连 所 指定 的 较 高 屋 协议 可 以 直接 在 数据 链 路 层 上 实现 。 所 以 数据 报 / 报 文 巾 进行 传输 的 性 能 可 以 
接近 在 物理 网 络 中 性 能 的 阔 值 。 

在 本 地 文件 系统 中 ， 块 高 速 组 存 用 于 使 磁盘 1/O 时 间 与 CPU 时 间 交 送 。 在 远程 磁盘 服务 器 中 ， 客户 
可 以 通过 提前 读 取 来 对 块 进行 缓存 ， 但 服务 器 却 不 行 ， 因 为 它 不 知道 文件 的 组 织 结构 情况 。 所 以 在 远程 磁 
盘 系 统 中 ， 广 泛 采用 客户 端的 高 速 缓 存 来 作为 增强 性 能 的 机 制 。 


16.2.3 可靠 性 


假设 一 个 虚拟 磁盘 扇 区 (通常 与 服务 器 中 的 物理 磁盘 户 区 一 样 大 ) 可 以 整个 放 在 一 个 报 文中 。 那 么 可 
靠 性 就 与 两 个 问题 有 关 ， 第 一 是 保证 磁盘 命令 最 终 由 服务 器 得 到 执行 ; 第 二 是 在 磁盘 请 求 处 理 期 间 ， 同 步 
客户 与 服务 器 之 间 的 操作 当 它 们 中 的 一 个 或 另 一 个 可 能 失效 时 。 

网 络 层 要 保证 可 靠 传输 最 大 长 度 报 文 〈 它 独立 于 数据 链 路 层 帧 的 大 小 ) 的 内 容 ， 这 意味 着 网 络 报 文 可 
能 在 发 送 者 和 接收 者 的 网 络 层 被 分 段 和 重组 。 然 而 ， 整 个 报 文 可 能 被 丢失 。 (在 互联 网 结构 中 ， 如 果 报 文 
通过 一 系列 的 网 关 ， 那 么 它们 可 以 与 发 送 次 序 不 同 的 次 序 进行 传送 。 然 而 ， 由 于 性 能 的 原因 ， 已 经 限定 必 
须要 通过 同一 个 局 域 网 互 连 客户 与 服务 器 。) 所 以 , 可靠 性 的 焦点 就 在 于 保证 即使 丢失 了 一 个 报 文系 统 也 
能 正确 地 运行 。 

可 靠 的 命令 执行 

本 地 磁盘 命令 被 限制 在 少数 的 几 个 操作 : 块 的 read 和 write, sek 定位 、 状 态 命令 ， 以 及 玫 个 更 底层 
的 磁盘 命令 而 很 低层 的 命令 ， 如 驱动 器 马达 的 控制 ， 不 能 通过 远程 
磁盘 接口 来 实现 ， 只 有 服务 器 才能 对 物理 磁盘 有 这 一 级 的 控制 。 类 似 地 ， 支 持 其 他 大 多 数 的 磁盘 命令 也 是 
不 需要 的 ， 因 此 VDD 真正 被 要 求 传送 的 命令 只 有 read 和 write， 可 能 还 没有 seek 命令 。( 如 果 让 客户 对 
服务 器 的 磁盘 进行 寻 道 ， 两 个 或 多 个 客户 可 能 会 容易 使 得 磁盘 头 猛烈 移动 。) 

在 正常 的 操作 中 ， 客 户 端 发 出 一 个 read 或 write 命令 ， 然 后 等 待 服务 器 的 响应 ， 要 么 有 一 个 结束 
write 的 应 答 ， 要 么 结束 read 而 且 返 回 一 个 磁盘 块 。 假 设 客户 端 发 出 一 个 read 命令 ， 并 且 包 含 命令 的 报 
文 在 被 传输 到 服务 器 之 前 丢失 ， 或 者 在 服务 器 结束 read 操作 之 后 返回 的 结果 丢失 。 从 客户 端的 角度 来 看 ， 
这 两 种 情况 都 是 失败 的 。 那 么 客户 端 应 该 怎么 做 呢 ? 通常 ， 协 议 在 VDD 发 出 一 个 命令 时 开始 运行 一 个 弟 
减 计时 器 ， 如 果 在 计时 器 期 满 之 前 返回 结果 ， 那 么 清除 计时 器 。 如 果 在 结果 返回 之 前 计时 器 减 到 0，VDD 
就 假定 read 命令 失败 并 重新 向 服务 器 发 送 命令 。 

当 计 时 器 期 满 时 ， 要 考虑 三 种 情况 : 
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n 如 果 第 一 次 命令 没有 到 达 服 务 器 ， 正 确 的 选择 就 是 重 发 该 命令 。 

n 假设 命令 已 经 到 达 了 服务 器 ,但 结果 在 网 络 上 被 丢失 。 第 二 次 read 操作 并 不 影响 服务 器 的 正确 运 
行 ， 但 它 允许 客户 端 从 丢失 的 报 文中 恢复 。 在 这 种 情形 中 ，read 操作 就 被 称 之 为 是 固 等 的 (idem- 
potent)， 这 意味 着 它 可 以 被 重复 执行 ， 而 产生 的 结果 都 是 同一 个 ， 如 同 只 执行 过 一 次 一 样 (假定 我 
们 不 考虑 高 层 的 问题 ， 如 在 第 一 次 与 第 二 次 的 read 操作 之 间 ， 一 个 不 同 的 客户 又 进行 了 写 块 
操作 )。 

里 假设 服务 器 超载 ， 因 此 在 客户 超时 后 并 重 发 命令 的 情况 下 ， 服 务 器 可 能 对 第 一 次 read 操作 进行 了 
响应 ， 并 且 然 后 在 某 时 又 对 第 二 次 操作 进行 响应 。 在 这 种 情形 中 ， 第 二 次 的 read 操作 逻辑 上 并 没 
有 害处 ， 尽 管 它 加 重 了 服务 器 的 超载 运行 。 但 客户 端的 协议 必须 准备 清除 这 种 来 自 同一 个 命令 的 重 
复 结果 。 

在 这 些 情形 中 有 两 个 关键 点 : 首先 ， 具 有 香 等 性 的 操作 可 以 被 反复 发 送 ， 并 对 服务 器 或 客户 没有 损 

害 ; 其 次 ,如 果 客 户 端 不 能 处 理 重复 请 求 的 多 次 响应 ， 那 么 客户 端 可 能 会 受到 损害 (然而 ， 它 可 以 对 重复 
发 送 命令 的 次 数 计数 ， 因 此 可 以 处 理 那 些 多 余 的 响应 ) 。 如 果 客 户 端 遇 到 了 连续 的 N 次 失败 ， 假 定 服务 器 
关闭 了 或 太 忙 而 不 能 反应 ， 它 会 决定 放弃 读 操作 。 

磁盘 write 命令 也 是 寡 等 的 。 如 果 命 令 报 文 在 传输 到 服务 器 之 前 被 丢失 ， 那 么 VDD 将 会 超时 并 重 发 
命令 。 如 果 命 令 被 传输 到 服务 器 并 且 信 息 已 写 人 磁盘 ,但 应 答 被 丢失 ， 第 二 次 write 命令 将 引起 RDA 使 
用 相同 的 信息 来 重 写 磁盘 扇 区 。 多 次 的 写 将 引起 多 个 应 答 回 传 给 客户 端 ， 这 些 应 答 是 很 容易 处 理 的 。 

AMOR RESO? 使 磁盘 读 写 头 移动 到 下 一 个 大 号 磁道 的 命令 就 不 是 者 等 的 。 假 设 读 写 头 在 50 
磁道 ， 那 么 在 执行 命令 时 ， 读 写 头 将 移动 到 51 磁道 ， 而 第 二 次 执行 时 又 将 移动 到 52 磁道 。 这 就 是 不 允许 
客户 发 出 seek 命令 给 服务 器 的 另 一 个 原因 。 | 

假设 客户 -服务 器 接口 设计 中 要 求 所 有 客户 端 发 出 的 命令 都 是 军 等 的 ， 并且 所 有 命令 都 有 应 答 。 那 
么 ,假设 网 络 将 最 终 传输 相 匹配 的 命令 和 应 答 ， 系 统 就 能 够 保证 命令 将 被 执行 。 那 么 获得 这 种 可 靠 性 的 关 
键 就 是 命令 的 军 等 性 特征 。 如 果 某 一 个 命令 不 是 短 等 的 ， 该 方法 将 不 能 正确 运行 。 

关于 应 答 ， 某 种 启发 式 的 思想 可 以 用 于 减少 它们 的 通信 次 数 。 在 write 命令 的 情形 中 ， 应 答 必须 是 明 
确 的 ， 但 在 read 的 情形 中 ， 应 答 可 以 通过 客户 端 接收 到 了 read 的 结果 而 得 到 暗示 。 

服务 器 失效 后 的 磁盘 恢复 

假设 在 对 磁盘 的 read 和 write 操作 的 会 话 中 服务 器 失效 一 一 例如 ， 在 远程 文件 客户 打开 一 个 文件 后 。 
如 果 服 务 器 不 能 从 失效 中 恢复 ， 那 么 客户 端 将 不 能 完成 它 的 工作 。 在 现代 系统 中 ， 磁 盘 服 务 器 将 最 终 恢复 
并 且 试 图 响应 在 恢复 之 前 没有 得 到 服务 的 任何 请 求 。 由 于 在 客户 端 采用 了 超时 策略 ， 客 户 端 在 服务 器 失效 
后 将 继续 向 它 重新 发 送 命令 。( 一 些 设计 中 记录 连续 命令 失败 的 次 数 ， 并 且 在 该 数目 达到 一 个 国 值 后 就 取 
消 命 令 。 在 实际 中 ， 客 户 端 可 以 在 一 个 不 确定 的 时 间 内 连续 地 重新 发 送 命令 一 一 直到 服务 器 从 失效 中 恢 
Ko) 那么 服务 器 如 何 知道 什么 命令 是 在 它 失效 之 前 所 接收 但 还 没有 处 理 的 呢 ? 服务 器 如 何 知道 怎样 恢复 
在 它 失 效 时 正在 执行 的 命令 呢 ? 对 于 被 客户 端 打开 但 存储 在 服务 器 中 的 文件 ， 将 会 发 生 什么 呢 ? 它们 的 内 
容 会 被 不 一 致 的 文件 描述 表 或 磁盘 块 指针 所 破坏 吗 ? 

在 远程 磁盘 服务 器 所 采取 的 方法 中 ， 这 些 困难 问题 中 的 大 多 数 都 可 以 被 忽略 。 该 方法 是 基于 无 状态 服 
务 器 (stateless server) 的 思想 ， 远 程 磁盘 服务 器 不 需要 保存 与 任何 文件 有 关 的 状态 ， 如 同 物理 磁盘 不 需要 
保存 存储 于 其 上 的 文件 的 相关 状态 一 样 ， 磁 盘 服务 器 只 是 简单 地 读 写 磁盘 块 ， 而 不 需要 了 解 块 中 编码 的 任 
何 联系 。 文 件 描述 表 完全 是 通过 客户 端的 文件 系统 进行 解释 的 ， 因 而 当 一 个 文件 被 打开 时 ， 它 的 文件 描述 
表 是 通过 一 个 或 多 个 块 读 操作 从 磁盘 服务 器 中 读 取 的 ， 服 务 器 并 不 需要 知道 客户 如 何 获得 文件 描述 表 。 当 
文件 系统 在 文件 的 块 列表 中 来 回 移动 时 ， 它 根据 客户 端 软件 中 对 文件 描述 表 的 解释 发 出 相应 的 读 / 写 操作 ， 
而 磁盘 服务 器 甚至 不 能 感知 文件 块 列表 。 

当 文件 中 的 块 被 增加 或 删除 时 ， 客 户 端的 文件 系统 从 磁盘 服务 器 中 读 取 适 当 的 块 ， 然 后 对 它们 进行 操 
作 ; 随后 ， 客 户 端 根 据 它 的 高 速 缓存 策略 回 写 块 到 磁盘 服务 器 中 。 结 果 是 ， 如 果 在 文件 打开 的 时 候 服务 器 
失效 ， 然 后 当 它 恢复 时 ， 无 需 为 了 与 它 恢复 之 前 的 待 处 理 操作 保持 一 致 性 并 根据 相应 的 状态 来 进行 恢复 。 
服务 器 不 需要 知道 在 它 恢复 之 前 客户 端 发 出 的 是 什么 命令 ， 因 为 各 个 客户 将 最 终 超时 并 会 重新 发 送 命令 。 

关于 恢复 的 主要 问题 是 ， 磁 盘 服务 器 必须 处 理 在 它 失 效 之 前 正在 处 理 的 有 关 操 作 。 如 果 磁 盘 户 区 涉及 
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将 要 进行 的 写 操 作 ， 且 服务 器 已 开始 对 磁盘 的 物理 写 操作 ， 它 就 必须 在 失效 之 前 完成 该 操作 ， 否 则 磁盘 请 
区 就 会 包含 部 分 原来 的 内 容 和 部 分 新 内 容 。 当 然 ， 对 于 本 地 磁盘 操作 也 有 同样 的 要 求 。 如 果 在 写 操作 期 间 
本 地 磁盘 失败 ， 那 么 无 论 是 本 地 或 远程 的 磁盘 写 操作 ， 通 常 该 扇 区 中 的 信息 会 委 失 。 如 果 服 务 器 并 没有 开 
始 实际 的 磁盘 写 操作 ， 那 么 客户 端 可 以 重复 发 送 该 命令 而 对 服务 器 没有 什么 损害 。 为 了 让 客户 端 知道 是 否 
操作 已 完成 ， 服 务 器 必须 应 答 每 个 操作 。 如 果 客 户 端 在 一 个 预定 的 时 间 间 隔 内 没有 收 到 应 答 ， 客 户 端 简单 
地 重新 发 送 命令 就 可 以 了 。 


16.2.4 远程 磁盘 的 未 来 


远程 磁盘 服务 器 是 有 吸引 力 的 ， 因 为 它 可 以 被 设计 成 一 个 容易 从 网 络 和 服务 器 失效 中 恢复 的 服务 器 。 然 
而 ， 由 于 功能 划分 的 特点 ， 这 种 服务 器 在 性 能 上 要 有 一 些 开销 。 考 虑 这 样 一 种 操作 ， 在 一 个 使 用 块 链 的 文件 
系统 中 来 进行 文件 定位 。 如 第 13 章 中 所 提 及 的 ， 甚 至 在 一 个 本 地 磁盘 系统 中 这 也 是 一 个 消耗 时 间 的 操作 ， 
因为 它 请 求 文件 管理 器 从 文件 头 〈 或 当前 位 置 ) 读 取 每 个 磁盘 块 ， 一 直到 包含 目标 数据 的 磁盘 块 。 在 远程 磁 
盘 系统 中 ， 每 个 块 读 操作 还 要 引起 从 服务 器 到 客户 端的 网 络 传输 。 如 果 服 务 器 被 设计 成 知道 文件 描述 表 的 内 
容 ， 那 么 通信 子 网 的 传输 量 一 一 以 及 延迟 ， 就 可 以 通过 发 送 定位 命令 到 服务 器 来 定位 目标 块 而 得 以 消除 。 这 
样 做 无 需 与 客户 端 交互 。 然 而 ， 这 种 方法 改变 了 磁盘 服务 器 ， 使 得 它 具 备 一 个 文件 服务 器 的 特征 。 

在 本 书 的 第 1 版 和 第 2 版 中 〈 大 约 分 别 在 1996 年 和 1998 年 编写 )， 我 曾 写 道 远程 磁盘 作为 可 行 的 商业 产 
品 被 排除 了 ， 这 样 说 的 原因 是 磁盘 变 得 非常 便宜 且 对 办 公 环境 变 得 非常 友好 。 我 们 也 指出 了 对 多 个 用 户 来 
说 ， 在 共享 服务 器 上 保持 文件 的 单 拷贝 有 极 大 的 优点 。 然 而 ， 这 个 优点 可 用 远程 文件 服务 器 技术 来 解决 。 

现在 情况 已 经 发 生 了 改变 ， 移 动 计算 与 无 线 网 络 的 结合 为 仅 有 少量 辅 存 的 小 计算 机 建立 了 市 场 需求 。 
前 面 所 提 及 的 PDA 和 蜂窝 电话 是 这 类 系统 的 一 个 例子 。 无 线 互联 网 应 用 也 可 使 用 远程 磁盘 技术 。 现 在 ， 
移动 计算 机 是 进入 使 用 文件 级 访问 的 远程 辅 存 应 用 (如 HTTP)， 还 是 决定 返回 到 远程 磁盘 技术 的 使 用 方 
式 中 ， 前 景 还 不 是 很 清楚 。 


16.3 远程 文件 系统 


远程 文件 系统 是 远程 磁盘 技术 的 一 个 替代 方法 。 像 远程 磁盘 一 样 ， 远 程 文件 系统 如 同 本 地 文件 系统 一 
样 为 应 用 程序 提供 了 相同 的 接口 。 像 远程 磁盘 服务 器 一 样 ， 远 程 访问 也 是 将 功能 分 布 在 客户 机 和 服务 器 实 
现 的 。 客 户 机 运行 应 用 程序 ， 服 务 器 保存 了 文件 的 内 容 。 远 程 文件 系统 的 目标 就 是 减少 在 客户 和 服务 器 间 
的 网 络 流量 。 一 般 来 说 ， 这 是 通过 在 文件 管理 中 给 服务 器 更 多 的 责任 来 完成 的 。 如 在 这 节 中 你 会 看 到 ， 在 
远程 文件 方法 中 ， 一 些 在 客户 端 做 的 工作 (在 远程 磁盘 方法 中 ) 被 放置 到 服务 端 来 执行 。 该 方法 的 代价 就 
是 在 客户 和 服务 器 中 都 必须 包含 文件 系统 操作 的 状态 部 分 ， 因 此 ， 它 们 之 间 必 须 相 应 地 协调 它们 的 活动 。 


16.3.1 通用 的 体系 结构 


本 地 文件 是 作为 在 磁盘 设备 上 相关 磁盘 块 的 集合 而 实现 的 。 如 同 第 13 章 中 所 讨论 的 一 样 ， 它 们 的 关 
系 可 以 用 一 个 列表 、 一 个 索引 表 或 某 种 其 他 的 数据 结构 来 实现 。 文 件 描述 表 通 过 指向 关联 列表 中 的 第 一 个 
块 ， 给 块 进 行 索引 编 址 ， 或 间接 给 块 编 址 一 例如，UNIX 的 inode， 来 提供 这 些 磁盘 块 的 “路 径 映 射 ”。 
文件 服务 器 设计 的 目标 是 ， 利 用 文件 结构 的 知识 ， 实 现 文件 操作 命令 ， 提 高 服务 器 的 性 能 。 

远程 文件 系统 的 一 般 组 织 和 远程 磁盘 服务 器 相同 ( 见 图 16-7)。 然 而 ， 在 远程 文件 系统 方法 中 ， 远 程 
文件 服务 器 实现 的 功能 要 比 远程 磁盘 方法 多 。 在 远程 磁盘 服务 器 中 ， 当 打开 文件 时 ， 内 部 文件 描述 表 被 保 
持 在 客户 机 里 。 在 远程 文件 服务 器 中 ， 内 部 文件 描述 表 可 以 保持 在 服务 器 中 。 这 意味 着 无 需 客户 端 软件 的 
协调 ， 服 务 器 就 可 以 执行 如 遍历 文件 这 样 的 操作 〈 例 如 ,执行 seek () 操作 ) 。 就 减少 网 络 流量 和 增加 整 
个 系统 的 性 能 来 说 ， 远 程 文件 服务 比 远程 磁盘 服务 要 好 。 

现在 我 们 碰 到 了 一 个 经 典 的 分 布 式 计算 问题 : 我 们 想 要 文件 管理 器 的 文件 系统 相关 部 分 分 布 在 远程 文件 
客户 和 服务 器 间 。 依 据 一些 外 部 目标 〈 如 最 小 化 平均 文件 读 时 间 ) ， 如 何 将 功能 进行 划分 来 得 到 最 优 效 果 呢 ? 
例如 ， 服 务 器 可 以 使 用 文件 描述 表 来 实现 块 管理 和 缓冲 。 客 户 可 以 处 理 读 写 头 管理 、 编 码 和 解码 字 节 流 以 及 
额外 的 缓冲 〈 见 图 16-10)。 这 个 方法 是 吸引 人 的 ， 因 为 它 使 得 块 列表 管理 的 大 多 数 细节 封装 在 服务 器 中 ， 而 
块 - 字 节 流 转换 的 细节 封装 在 客户 中 。 与 远程 磁盘 设计 相 比 (每 次 块 读 写 导致 一 次 网 络 传输 )， 这 消除 了 客 
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户 和 服务 器 间 的 大 多 数 网 络 流量 。 然 而 ， 客 户 仍然 必须 维持 文件 描述 表 的 当前 副本 ， 使 得 它 可 以 执行 认证 ， 
维持 有 关 读 写字 节 流 的 当前 状态 ， 并 且 管 理 锁 。 对 应 地 ， 服 务 器 也 必须 知道 访问 字 节 流 的 文件 位 置 来 使 得 在 
必要 时 可 以 读 写 块 。 它 也 必须 知道 文件 块 的 位 置 。 客 户 和 服务 器 都 需要 内 部 文件 描述 表 的 拷贝 。 

客户 机 


远程 文件 客户 端 
和 编 解码 
a 缓冲 





图 16-10 文件 管理 器 功能 的 一 种 划分 
注 : 设计 远程 文件 服务 器 的 一 个 挑战 是 如 何 将 文件 系统 相关 模块 的 不 同 功能 分 配给 客户 和 服务 器 。 在 这 个 例子 
中 ， 系 统 的 客户 方 编码 /解码 字 节 流 并 实现 块 缓冲 。 系 统 的 服务 器 方 处 理 设备 管理 、 缓 冲 和 块 管理 。 


一 种 可 供 选 择 的 方法 是 将 块 管理 保持 在 客户 一 方 ， 让 服务 器 实现 块 缓冲 。 可 异 的 是 ， 这 种 方法 也 需 
要 将 打开 文件 的 状态 都 保持 在 客户 和 服务 器 中 。 已 经 试 过 的 每 种 划分 技术 (除了 远程 磁盘 方法 ) 都 需要 客 
户 和 服务 器 共享 保持 在 文件 描述 表 中 的 信息 。 这 是 因为 文件 系统 相关 部 分 中 的 不 同 部 分 使 用 文件 描述 表 的 
不 同 数据 。 当 功能 被 分 布 时 ， 文 件 描述 表 必 须 复 制 到 客户 和 服务 器 中 。 
在 所 有 的 远程 文件 服务 器 方法 中 ， 当 一 个 open () 命令 被 传递 到 服务 器 时 ， 服 务 器 就 获得 文件 描述 表 
并 保存 一 份 拷贝 ， 然 后 传输 另 一 份 拷贝 到 文件 系统 的 客户 端 中 。( 如 13.7 节 所 描述 的 ， 客 户 方 将 它 的 内 部 
格式 转换 成 客户 文件 管理 器 无 关 部 分 使 用 的 格式 。) 因此 在 远程 磁盘 中 的 文件 描述 表 存在 元 余 拷 贝 ， 一 份 
在 远程 服务 器 中 ， 一 份 在 客户 端 中 。 
除了 具体 的 功能 划分 和 保持 文件 描述 表 的 两 份 或 多 份 拷贝 外 ， 在 设计 远程 文件 系统 时 ， 有 两 个 其 他 的 
主要 问题 要 考虑 : 
E 由 于 客户 端 和 服务 器 都 可 能 缓冲 磁盘 块 ， 那 么 可 结合 到 系统 中 的 最 有 效率 的 缓冲 策略 是 什么 呢 ? 在 
这 个 地 方 或 另 一 个 地 方 进行 缓冲 有 什么 好 处 ? 或 者 应 该 在 两 个 地 方 都 缓冲 吗 ? 
n 戎 等 操作 以 及 无 状态 的 服务 器 可 以 用 于 实现 一 个 简单 的 失效 恢复 策略 ,但 代价 是 增加 了 网 络 流量 。 
那么 这 个 策略 如 何 被 应 用 到 文件 服务 器 中 呢 (由 于 文件 描述 表 在 客户 端 和 服务 器 中 都 必须 维持 )? 
如 果 采 用 ， 对 性 能 有 什么 影响 呢 ? 


16.3.2 块 高 速 缓存 


逻辑 上 ， 当 对 一 个 远程 文件 的 read O 操作 被 传 到 客户 端 部 分 时 ， 它 就 被 打包 并 发 送 到 服务 器 中 ， 服 
务 器 解码 包 信息 并 从 它 的 磁盘 中 读 取 相应 的 块 ， 然 后 将 该 块 返回 客户 端 。 回想 一 下 对 本 地 文件 系统 的 讨 
论 , 文件 操作 的 顺序 性 特征 强烈 要 求 设置 缓冲 来 使 设备 与 CPU 的 操作 交 先 进行 ， 这 会 导致 文件 访问 性 能 
的 提高 (减少 进程 的 运行 时 间 )。 在 远程 文件 服务 器 中 ， 同 样 可 以 通过 在 客户 端 和 服务 器 中 进行 缓冲 ， 使 
网 络 的 传输 操作 与 服务 器 的 磁盘 访问 能 够 交 迭 进行 (参见 图 16-11)。 在 进行 read O 操作 时 ， 服 务 器 提前 
读 磁盘 并 且 为 客户 端 请 求 将 块 信息 放 入 缓冲 区 ;， 当 客 户 端 需要 时 ， 它 就 从 服务 器 缓冲 区 中 读 取信 息 ， 并 且 
项 先 将 客户 应 用 程序 对 这 些 信息 的 请 求 进行 排队 。 写 操作 的 缓冲 以 相反 的 过 程 进行 。 
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图 16-11 远程 文件 系统 中 的 缓冲 
注 : 远程 文件 系统 可 以 在 客户 端 和 服务 器 端 缓冲 块 。 这 使 得 系统 重 琶 了 CPU、 设 备 和 网 络 操作 ， 充 分 地 加 速 了 
文件 的 读 和 写 。 


严格 的 预 读 、 浪 后 写 缓 冲 策略 可 以 通过 在 技术 上 增加 一 个 综合 层次 而 变 得 更 为 有 效 。 对 一 个 文件 的 
数据 访问 往往 遵循 一 种 局 部 性 特征 ， 如 以 前 在 虚拟 存储 器 的 研究 中 所 观察 到 的 一 样 ， 即 当 一 个 块 中 的 条 目 
被 访问 时 ， 顺 序 文件 语义 表明 下 一 个 字 节 也 将 被 访问 。 然 而 ， 在 很 多 应 用 程序 中 ， 一 个 块 中 的 数据 可 能 被 
重复 访问 而 不 会 遵循 真正 的 顺序 语义 ， 即 数据 访问 有 局 部 性 。 

局 部 性 的 存在 意味 着 当 一 个 块 被 拷贝 到 主 存 缓冲 时 ， 它 可 能 被 重复 访问 多 次 ， 如 同 在 虚拟 存储 系统 中 
一 个 页 被 重复 访问 一 样 。 因 此 可 以 很 容易 地 增加 一 个 替换 策略 到 缓冲 方案 中 ， 一 且 一 个 缓冲 块 被 客户 端 读 
取 或 写 过 后 ， 并 不 马上 移 走 它 ， 除非 LRU 替换 策略 指定 它 应 该 被 移 走 。 这 种 策略 替代 自然 的 预 读 、 滞 后 
写 的 缓冲 语义 。 一 旦 在 缓冲 技术 中 考虑 采用 某 种 替换 策略 ， 也 可 以 通过 加 大 或 减 小 文件 的 块 大 小 以 改变 拷 
贝 到 客户 端的 信息 量 。 大 的 块 易 于 捕获 到 数据 的 局 部 性 ， 因 为 它们 在 客户 端 缓冲 中 保存 了 较 多 的 字 节 数 
A; 然而 ， 当 一 个 新 块 必须 被 加 载 时 ， 加 载 的 时 间 也 会 花 得 较 多 。 这 种 技术 通过 使 用 称 之 为 块 高 速 缓存 
(block caching) 的 技术 与 简单 的 缓冲 技术 相 区 别 。 

在 远程 文件 系统 中 ， 多 个 客户 端 有 可 能 同时 访问 同一 个 文件 。 在 本 地 系统 中 ， 如 果 两 个 或 多 个 进程 同 
时 打开 一 个 文件 准备 写 ， 那 么 各 个 write () 操作 中 的 每 一 个 都 将 在 逻辑 wite () 发 生 后 ， 随 即 就 被 分 别 
写 回 到 磁盘 中 。 在 高 速 缓 存 的 情况 下 ， 一 个 块 在 被 写 回 到 服务 器 的 磁盘 中 以 前 ， 可 能 会 在 客户 端 中 维持 一 
段 时 间 。 假 设 两 个 进程 都 已 经 打开 了 一 个 文件 准备 写 ， 并 且 每 一 个 进程 都 在 客户 端 机 器 的 高 速 缓存 中 存 有 
同一 个 块 的 拷贝 。 那 么 现在 当 一 个 进程 在 客户 端 写 块 时 ，write () 的 结果 在 一 个 任意 数目 的 时 间 内 不 能 
被 其 他 的 客户 所 感知 。 这 就 是 所 谓 的 块 高 速 缓存 的 一 致 性 问题 ， 它 类 似 于 在 共享 存储 器 多 处 理 机 中 的 高 速 
缓存 一 致 性 问题 。 

操作 系统 如 何 处 理 块 高 速 缓存 的 一 致 性 问题 呢 ? 一 些 文件 服务 器 仅 支 持 顺 序 写 共享 (sequential write 
sharing)。 在 这 种 方法 中 ， 对 于 想 写 文件 的 客户 ， 只 允许 其 中 的 一 个 打开 文件 进行 号， 而 其 他 客户 都 不 准 
打开 该 文件 。 一 个 文件 就 像 是 一 个 本 地 磁盘 一 样 被 进行 写 操作 ， 然 后 再 关闭 它 ， 高 速 缓存 被 刷新 ， 随 后 的 
文件 打开 是 在 write O 后 数据 上 进行 的 。 顺 序 写 共 享 保证 了 前 面 打开 的 文件 中 延迟 的 高 速 缓 存 块 ， 不 会 
干扰 对 该 文件 的 一 个 新 打开 命令 的 操作 。 更 为 复杂 的 问题 是 ， 如 果 在 回 写 完 成 之 前 又 有 一 个 打开 该 文件 的 
命令 到 达 ， 那 么 需要 强制 更 新 服务 器 的 磁盘 映像 ， 从 而 解决 来 自 其 他 客户 的 待 完成 的 回 写 块 操作 。 

并 发 写 共 享 (concurent write sharing) 是 一 种 更 为 灵活 的 方法 ， 其 中 几 个 客户 可 以 打开 同一 个 文件 进 
行 读 或 写 。 在 这 种 情形 中 ， 最 新 的 写 和 数据 必须 及 时 传播 到 读 客户 中 。 如 果 任 一 个 客户 打开 一 个 共享 的 文 
件 进行 写 ， 那 么 文件 并 发 写 共享 是 通过 简单 地 禁止 高 速 缓存 来 处 理 的 。 

在 Sprite 网 络 文件 系统 (一 个 在 加 州 大 学 Berkeley 分 校 实现 的 兼容 UNIX 的 文件 服务 器 ) H, ERT 
更 为 积极 的 高 速 缓存 策 略 来 获得 高 性 能 。 它 的 设计 利用 了 对 UNIX 文件 的 两 个 经 验 观 察 结果 。 首先 ， 高 性 
能 本 地 文件 系统 可 以 在 用 户 级 进程 与 磁盘 之 间 广 泛 地 使 用 缓冲 ;其 次 ， 用 于 缓冲 的 主 存 数量 对 性 能 有 大 的 
影响 。 

Sprite 在 设计 中 小 心地 通过 高 速 缓存 技术 来 增强 性 能 : 

E 因为 它 开 发 了 客户 端的 高 速 缓存 技 术 ， 所 以 它 必须 花费 特别 的 努力 来 保证 在 文件 的 高 速 缓存 拷贝 之 
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间 的 一 致 性 。 

E 它 动态 地 为 每 个 高 速 缓存 分 配 空间 ， 其 中 高 速 缓存 的 分 配 策略 与 虚拟 存储 机 制 融合 在 一 起 。 

Sprite 使 用 延迟 的 回 写 策略 (delayed write-back policy)， 无 论 什么 时 候 一 个 客户 写 了 它 的 高 速 缓存 中 的 拷 
贝 ， 并 不 要 求 客户 立即 将 高 速 缓存 中 的 信息 更 新 到 服务 器 中 并 再 通过 服务 器 高 速 缓存 到 磁盘 ， 而 是 在 服务 器 
有 “空闲 ”时 间 时 ， 或 者 经 过 一 个 适当 的 时 间 间 隔 后 〈 大 约 为 1 分 钟 )， 才 进行 write () 操作 。 这 就 允许 客 
户 的 write O 操作 完成 而 无 需 等 待 服务 器 磁盘 write () 的 结束 。 如 果 在 数据 被 写 后 又 随即 被 删除 时 就 节省 
T write () 操作 。 例 如 ， 编 译 器 可 能 在 第 1、2 遍 之 间 生 成 一 个 中 间 文 件 ， 然 后 在 编译 结束 时 删除 该 文件 。 
文本 编辑 器 也 往往 在 一 个 短 时 间 内 保存 临时 的 文件 。 在 延迟 的 回 写 方法 中 ， 高 速 缓存 的 信息 可 能 不 曾 写 到 过 
磁盘 。Sprite 对 回 写 操作 使 用 了 30 秒 的 延迟 ， 并 且 在 另 一 个 30 秒 中 来 实际 完成 相应 的 动 动 。 

Sprite 的 研究 者 报告 说 ， 他 们 在 文件 系统 的 实验 中 得 出 了 有 吸引 力 的 性 能 比较 。 使 用 高 速 缓 存 的 客户 
端 要 比 没有 使 用 高 速 缓存 的 客户 端 有 10% ~40% 的 加 速 。 同 样 ， 通 过 使 用 高 速 缓存 ， 对 于 相同 的 测试 程序 
集 ， 无 盘 客户 只 比 带 有 类 似 磁 盘 的 工作 站 慢 了 不 到 12% 。 基 于 实验 中 的 观察 结果 ， 开 发 者 们 推测 出 ， 对 于 
具有 典型 配置 的 客户 端 在 运行 “平均 ”程序 的 情况 下 ， 一 个 服务 器 应 该 能 够 处 理 多 达 50 台 的 客户 机 器 。 


16.3.3 失效 后 的 恢复 


在 本 地 文件 系统 中 ， 引 人 缓冲 会 带 来 另 一 个 危险 ， 即 有 信息 被 缓冲 的 同时 磁盘 或 机 器 可 能 失效 ， 尤 其 
是 文件 描述 表 ， 那 么 这 些 信息 可 能 丢失 。 在 一 个 远程 文件 系统 中 更 加 危险 ， 因 为 不 仅 磁盘 和 机 器 可 能 会 失 
效 ， 而 且 信 息 也 可 能 由 于 不 可 靠 的 网 络 而 被 丢失 。 如 果 服 务 器 失效 又 进行 恢复 ， 那 么 它 必 须 能 够 确定 在 失 
效 时 刻 每 个 会 话 中 的 全 部 有 效 状 态 。 失 效 恢 复 是 在 设计 中 要 考虑 的 一 个 重要 因素 。 

一 些 文件 服务 器 的 设计 强调 以 牺牲 性 能 来 换取 可 靠 性 运行 ， 有 些 设计 则 更 趋向 于 性 能 方面 ， 因 此 要 求 结合 
有 更 为 复杂 的 失效 恢复 算法 。 两 种 设计 的 企图 都 是 要 有 高 可 靠 性 并 且 有 高 性 能 ， 只 是 进行 折衷 的 角度 不 同 。 

面向 恢复 的 文件 服务 器 . 

将 服务 器 设计 成 无 状态 的 这 种 策略 〈 可 以 简化 在 它 失 效 后 的 恢复 )， 可 以 从 远程 文件 服务 器 的 磁盘 服务 
器 中 所 使 用 的 技术 扩展 而 成 。 在 无 状态 文件 服务 器 中 ,文件 描述 表 总 是 被 保存 在 客户 机 器 中 ， 并 且 当 客户 端 
请 求 一 个 操作 时 ， 总 是 发 送 相应 文件 描述 表 中 有 关 部 分 的 拷贝 到 服务 器 。 更 进一步 的 解释 如 下 : 在 执行 一 个 
open () 命令 时 服务 器 获得 了 文件 描述 表 ， 并 且 在 传递 到 客户 端 之 前 它 做 了 一 个 拷贝 ， 因 此 在 open () 命 令 执 
行 的 时 刻 ， 服 务 器 中 文件 描述 表 的 信息 是 正确 的 。 现 在 假设 服务 器 只 使 用 文件 描述 表 中 的 内 容 作为 随后 操作 
的 “提示 ”。 客 户 端 中 文件 描述 表 的 拷贝 中 保存 着 文件 的 实际 状态 。 这 就 意味 着 服务 器 可 以 使 用 文件 描述 表 
执行 任意 操作 来 增强 性 能 ， 如 缓冲 的 使 用 。 然 而 ， 服 务 器 不 允许 执行 那些 操作 的 正确 性 依赖 于 文件 描述 表 找 
贝 正确 性 的 操作 。 如 果 服 务 器 在 执行 一 个 操作 之 前 需要 知道 文件 描述 表 的 状态 ， 如 块 管理 ， 那 么 它 必须 从 请 
求 中 获得 文件 描述 表 中 相应 部 分 的 拷贝 。 客 户 端 将 总 是 依靠 这 种 请 求 来 使 服务 器 执行 这 种 操作 ， 这 种 请 求 中 
包括 请 求 文件 描述 表 的 正确 值 。 服 务 器 决 不 允许 执行 下 述 操作 : 操作 的 正确 性 依赖 于 文件 描述 表 的 状态 而 又 
不 通过 客户 端 进 行 指 导 ， 或 者 不 需要 首先 从 客户 端 获得 执行 该 操作 的 许可 的 操作 。 

接 下 来 ， 通 过 客户 端 激活 的 操作 必须 都 是 等 等 的 。 对 于 低级 文件 系统 而 言 ， 这 个 保证 并 不 困难 ， 因 为 这 
些 操 作 就 是 open (), close (), read (), write () 以 及 seek ()。read () 和 write () 的 语义 与 磁盘 read 
O 和 write () 的 语义 是 一 样 的 ， 并 且 能 够 使 得 它们 是 寡 等 的 。cpen () 也 是 备 等 的 ， 因 为 它 可 以 被 重复 执 
行 而 无 需 改 变 文 件 描述 表 。 类 似 地 ，close () 是 宕 等 的 ， 因 为 它 引 起 缓冲 被 刷新 到 磁盘 中 ， 并 且 文 件 描 述 表 
被 写 回 到 磁盘 中 。 这 种 文件 服务 器 设计 ， 人 允许 系统 使 用 比 那些 要 求 可 靠 通信 的 协议 运行 更 快 的 网 络 协 议 。 通 
过 将 sek O 取 数 的 参数 限制 为 绝对 的 位 置 而 不 是 相对 的 位 置 ，seek() 函数 也 可 以 是 寡 等 的 。 

相对 于 需要 可 靠 的 通信 而 言 ， 文 件 服务 器 的 设计 人 允许 系统 使 用 更 快 的 网 络 协 议 。 例 如 ， 这 种 风格 的 远 
程 文件 服务 器 可 以 使 用 UDP, 或 者 网 络 上 数据 链 路 层 中 原始 的 报 文 接 口 。 

Sun 的 网 络 文件 系统 (NFS) 就 是 最 著名 的 面向 失效 恢复 的 文件 系统 。 由 于 NFS 在 20 世纪 80 年 代 早 
期 就 被 提出 [Sandberg et al. ，1985]， 它 被 广泛 地 采用 。Sun 的 目标 是 支持 异 构 文 件 系统 ， 其 至 在 客户 机 
髓 内 ， 通 过 一 个 简单 的 失效 恢复 机 制 ， 来 提供 合理 的 性 能 和 工业 化 强度 的 可 靠 性 。NEFS 变 得 如 此 流行 以 至 
于 它 的 基本 行为 变 成 了 一 个 网 络 协议 ， 也 称 之 为 NFS。 在 NFS 提 出 15 年 后 的 今天 ， 现 在 推出 的 是 它 的 第 
3 个 版 本 ， 并 且 仍 然 是 主要 的 商业 化 远程 文件 服务 器 。 | 
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NFS 与 其 他 文件 服务 器 一 样 有 着 通用 的 体系 结构 ， 模 块 化 结构 如 图 16-12 所 示 。 基 本 的 UNIX 文件 系 
统 接口 被 一 个 在 客户 端 和 服务 器 内 核 中 的 只 拟 文件 系统 (VFS) 所 替代 。VFS 实现 了 标准 化 的 本 地 UNIX 
文件 接口 ， 可 以 通过 该 文件 接口 到 达 一 个 传统 的 UNIX 本 地 文件 管理 器 ， 也 可 以 将 UNIX 文件 操作 转换 成 
在 客户 端 机 器 中 NFS 文件 管理 器 上 的 文件 操作 。 通 过 VFS， 可 以 使 用 来 自 不 同 操作 系统 的 文件 管理 器 。 
对 远程 文件 的 操作 被 传递 到 NFS 的 客户 端 部 分 。 


客户 机 服务 器 


UNIX( 其 他 ) NFS NFS 
文件 管理 器 的 客户 端 部 分 的 服务 器 部 分 





图 16-12 Sun NFS 的 结构 
注 : Sun NFS (网 络 文件 系统 ) 是 一 个 远程 文件 系统 。 使 用 虚拟 文件 系统 开关 表 ， 系 统 可 以 支持 本 地 和 远程 文件 


NFS 文 件 层次 结构 可 以 是 异 构 的 ， 层 次 结构 中 的 不 同 部 分 可 以 通过 不 同 操作 系统 的 文件 管理 器 来 实 
现 。 系 统 被 设计 成 对 层次 结构 的 不 同 子 树 采用 相应 的 文件 管理 器 。 为 了 实现 这 一 点 ， 任 一 个 本 地 系统 文件 
接口 ， 像 UNIX 文件 接口 可 以 在 VES 之 上 来 实现 。VFS 模块 用 于 将 文件 管理 器 接口 匹配 到 相应 文件 管理 
器 实现 ， 但 更 为 重要 的 是 ， 它 也 可 以 发 出 一 组 标准 的 命令 到 远程 服务 器 。 这 些 命令 使 用 一 个 称 之 为 vnode 
的 抽象 文件 描述 表 ， 并 且 在 客户 端 与 服务 器 之 间 建 立 了 一 个 称 之 为 NFS 协议 的 对 等 协议 。vnode 提供 文件 
管理 器 和 文件 层次 结构 中 相应 类 型 子 树 之 间 的 对 应 关系 。 

NFS 服务 器 管理 网 络 文件 层次 中 的 子 树 。 如 果 一 个 客户 端 需要 使 用 子 树 中 的 文件 ， 它 就 将 该 子 树 安装 
到 它 自己 的 层次 结构 中 (参见 16.5 节 )， 然 后 NFS 的 客户 和 服务 器 部 分 使 用 协议 ， 来 协同 在 客户 端的 
VFS 接 口 与 NFS 服务 器 之 间 的 活动 。 在 一 种 极端 情况 下 ， 一 个 无 盘 客户 端 可 以 使 用 NFS， 安 装 一 个 远程 
磁盘 服务 器 的 根 文 件 系统 。NFS 的 部 分 协议 被 设计 用 于 实现 和 协调 文件 系统 的 安装 。 

NES 协议 规定 服务 器 是 无 状态 的 ， 因 而 极 大 地 简化 了 失效 恢复 。 每 个 服务 器 命令 是 原子 的 ， 要 么 运行 结 
东 ， 要 么 对 服务 器 的 数据 没有 影响 。 这 是 通过 在 客户 端 保存 全 部 文件 描述 表 ， 并 且 在 服务 器 中 有 一 个 该 控制 
抉 的 拷贝 来 实现 的 。 在 NFS 协 议 中 ,使 用 一 个 lodkup () 命令 而 不 是 一 个 open () 命令 。 只 要 客户 端 发 出 -_- 
个 命令 ， 如 果 该 命令 要 求 改正 状态 的 话 ， 它 就 拷贝 控制 块 中 相关 的 部 分 到 命令 消息 中 ， 并 且 与 命令 一 起 传输 
到 服务 器 。 随 后 ，NFS 使 用 数据 报 而 不 是 请 求 一 个 连接 协议 ， 并 且 客 户 端 或 者 服务 器 可 以 失效 ， 而 不 会 影响 
到 其 他 操作 。 

NFS 协议 被 使 用 在 NFS 客户 端 与 服务 器 模块 之 间 ， 这 两 部 分 都 是 在 内 核 中 实现 的 。NFS 的 第 一 个 版 
本 中 使 用 UDP， 然 而 后 来 的 版 本 2 和 3 是 在 卫 之 上 要 么 使 用 UDP 要 么 使 用 TCP (NFS 在 互联 网 上 运行 )。 
有 关 该 协议 的 其 他 详情 可 以 在 Stevens [1994, Ch. 29] 中 找到 ，Sun 公司 的 文档 中 描述 了 实现 过 程 。 

面向 性 能 的 文件 服务 器 

面向 恢复 的 实现 方法 由 于 需要 为 多 数 操作 传送 一 个 文件 描述 表 的 拷贝 ， 因 而 受到 批评 。 可 蔡 代 的 方法 
则 允许 客户 端 与 服务 器 分 布 存放 文件 描述 表 ， 并 且 使 用 其 他 的 方法 来 保证 分 布 的 文件 状态 总 是 一 致 的 ， 如 
果 客 户 端 或 者 服务 器 失效 ， 它 可 以 进行 重 构 。 如 果 连 接 网 络 是 可 靠 的 ， 那 么 客户 端 与 服务 器 的 任务 就 可 以 
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大 大 简化 。 所 以 该 方法 通常 使 用 像 TCP 这 样 的 传输 层 协议 。 

客户 端 像 字 节 流 操作 一 样 来 执行 文件 的 TIMO 命令 ， 服 务 器 处 理 字 节 流 与 磁盘 块 之 间 的 转换 ， 因 而 服务 
器 为 字 节 流 操 作 维 持 着 相应 的 文件 读 写 位 置信 息 。 例 如 ， 客 户 端 通过 发 出 一 个 write () 操作 准备 将 一 个 
字 节 块 写 人 文件 。 命 令 不 一 定 适合 放 到 一 个 报 文中 ， 因 为 字 节 块 可 能 是 任意 大 小 的 。 客 户 端 维持 部 分 文件 
描述 表 并 且 在 服务 器 中 维持 另 一 部 分 ， 所 以 当 客 户 端 发 出 write O 操作 时 ， 它 将 做 下 面 其 中 之 一 的 工作 : 

。 它 将 假定 服务 器 收 到 了 命令 和 数据 ， 并 且 完 成 了 write () 操作 。 

。 它 没有 把 块 的 任何 部 分 放 到 字 节 流 中 ， 并 且 命 令 将 随后 失败 。 

客户 端 和 服务 器 中 都 包含 有 部 分 文件 描述 表 ， 当 文件 及 记录 被 使 用 时 ， 都 包括 有 文件 还 有 记录 锁 。 因 
此 如 果 服 务 器 失效 的 同时 客户 端 已 经 打开 了 一 个 文件 ， 那 么 服务 器 要 求 恢复 每 个 打开 文件 描述 表 的 状态 。 
否则 ， 客 户 端 可 能 认为 一 个 文件 被 锁 住 了 ， 而 服务 器 恢复 的 控制 块 表明 该 文件 并 没有 被 锁 住 ， 所 以 客户 端 
必须 检测 到 什么 时 候 服务 器 失效 了 。 在 TCP 这 种 虚 电 路 机 制 中 ， 如 果 服 务 器 失效 ， 将 发 信号 通知 客户 端 。 
当 客户 端 检 测 到 服务 器 失效 时 ， 它 会 保存 分 布 在 自身 和 服务 器 中 的 相应 文件 描述 表 的 当前 状态 。 当 服务 器 
指示 它 已 经 恢复 时 ， 挂 起 的 打开 文件 被 恢复 ， 并 且 继 续 远程 文件 的 操作 。 应 用 程序 由 客户 端的 文件 管理 器 
通知 ， 并 且 被 允许 可 以 做 其 他 的 事情 ， 然 而 默认 情况 下 ， 它 们 将 简单 地 阻塞 并 等 待 服务 器 恢复 。 

服务 器 被 假定 是 不 稳定 的 ， 因 而 在 设计 中 要 特别 注意 对 恢复 的 帮助 。 首 先 ， 每 个 打开 的 文件 描述 表 都 
被 保存 在 稳定 存储 器 (stable storage) 中 ， 因 此 如 果 服务 器 失效 的 同时 文件 是 打开 的 ， 那 么 可 以 从 中 获得 
文件 描述 表 。 当 客户 端 请 求 服务 器 完成 一 个 操作 时 ， 在 服务 器 开始 执行 该 操作 之 前 ， 文 件 以 及 文件 描述 表 
的 状态 都 被 保存 起 来 。 如 果 在 操作 期 间 服务 器 失效 ， 恢 复 时 就 使 用 最 初 的 文件 以 及 文件 描述 表 的 状态 。 当 
服务 器 完成 一 个 操作 时 ， 它 更 新 在 稳定 存储 器 中 的 文件 描述 表 ， 并 且 将 改变 的 内 容 保存 到 文件 中 。 

要 求 稳定 存储 器 从 来 不 会 失效 是 难以 实现 的 [Lampson and Sturgis，1979]。 大 多 数 稳定 存储 器 的 实现 
是 “几乎 总 是 正确 的 "， 但 它们 有 时 也 会 失效 。 一 般 的 做 法 是 创建 一 个 硬件 级 的 临界 区 一 一 物理 活动 块 ， 
它 甚至 在 机 器 电源 失效 后 也 能 运行 完成 ， 来 保证 信息 可 以 写 人 到 存储 设备 中 。 接 下 来 ， 将 稳定 存储 器 内 容 
拷贝 到 不 同 的 设备 中 ， 这 是 为 了 防止 设备 失败 而 破坏 稳定 存储 器 的 内 容 。 当 一 个 对 稳定 存储 器 的 写 操作 发 
生 时 ， 临 界 区 保证 将 数据 写 人 稳定 存储 器 的 两 个 拷贝 中 。 如 果 在 临界 操作 期 间 机 器 失败 ， 那 么 焦 复 进程 能 
够 检测 到 机 器 失败 ， 它 然后 比较 两 个 拷贝 。 如 果 第 一 个 正在 写 ， 那 么 它 就 被 放弃 并 且 使 用 第 二 个 拷贝 ， 这 
相应 于 在 写 之 前 的 机 器 情形 ; 如 果 第 二 个 正在 写 ， 那 么 第 一 个 拷贝 就 作为 稳定 存储 器 的 内 容 ; 如 果 失 效 发 
生 在 两 个 写 之 间 ， 那 么 就 使 用 第 一 个 拷贝 。 

实现 稳定 存储 器 的 商业 化 操作 系统 几乎 不 存在 ， 它 们 是 依赖 于 电源 后 备 系统 来 允许 机 器 在 电源 失败 之 
后 再 运行 若干 毫秒 的 时 间 。 当 电源 失败 时 会 产生 一 个 中 断 ， 然 后 系统 就 会 使 用 后 备 电池 来 执行 电源 失败 中 
断 处 理 。 后 续 代 码 要 完成 任何 正 进 行 的 写 操作 ， 因 而 机 器 不 会 在 写 操作 上 失败 。 这 种 方法 对 于 磁盘 失效 仍 
然 无 可 奈何 ， 然 而 ， 由 于 磁盘 头 失效 将 只 破坏 稳定 存储 器 中 的 单个 拷贝 ， 从 而 恢复 也 是 可 能 的 。 


16.4 文件 级 高 速 缓存 


文件 高 速 缓存 是 文件 服务 器 缓存 中 的 逻辑 极限 情况 ， 它 使 用 的 策略 是 ， 当 文件 被 打开 时 ， 自 动 地 将 整 
个 文件 从 服务 器 拷贝 到 客户 端 ， 并 且 当 客户 端 关闭 文件 时 将 其 回 写 到 服务 器 。 对 文件 级 缓存 ， 客 户 机 器 通 
常 期 望 包括 有 一 个 容量 小 的 磁盘 。 文 件 级 高 速 缓存 消除 了 通过 网 络 对 各 个 磁盘 块 或 文件 块 的 更 新 操作 ， 从 
而 提高 了 整个 系统 的 性 能 。 在 文件 回 写 到 服务 器 之 前 ， 所 有 的 改变 都 是 针对 本 地 拷贝 进行 的 。 文 件 级 高 速 
缓存 不 能 防止 一 致 性 问题 ， 然 而 ， 这 个 问题 现在 是 基于 文件 产生 的 。 

对 文件 级 缓存 有 两 种 通用 的 方法 : 一 致 性 (coherence) 方法 让 文件 系统 的 不 同 部 分 相互 协作 ， 使 得 当 
文件 的 一 个 副本 改变 时 ， 其 他 的 拷贝 要 人 么 被 更 新 ， 要 么 无 效 。 版 本 (versioning) 方法 使 用 了 一 种 更 极端 的 
方法 ， 一 旦 文件 被 创建 ， 它 就 不 会 再 被 修改 。 否 则 的 话 ， 创 建文 件 的 一 个 新 版 本 来 反映 这 种 修改 。 

我 们 通过 讨论 基于 一 致 性 的 系统 如 Locus 文件 系统 及 基于 版 本 的 系统 如 Andrew 文件 系统 来 探讨 这 两 种 方法 。 


16.4.1 Andrew 文件 系统 


Andrew 文件 系统 (AFS) 是 Carnegie Mellon 大 学 的 一 个 分 布 式 计算 环境 项 目 [ Satyanarayanan 1990], 
它 是 远程 文件 系统 技术 的 根 ， 并 被 开放 系统 基金 分 布 式 计算 环境 采用 ( 见 第 18 章 )。Vice 是 实现 AFS 的 服 
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务 器 集合 的 名 字 。 文 件 系 统 的 高 层 目标 是 拥有 可 接受 的 性 能 以 及 可 扩展 性 。Vice 文 件 系统 在 文件 级 高 速 组 
存 的 原理 下 工作 ， 在 每 次 访问 打开 文件 时 ， 每 个 客户 机 都 在 本 地 磁盘 上 存储 了 文件 的 拷贝 。 文 件 级 高 速 组 
存 的 动机 是 最 小 化 网 络 传输 量 以 及 对 服务 器 中 磁盘 头 的 竞争 。 

在 考虑 这 些 文件 以 及 它们 的 更 新 时 ， 可 以 将 文件 看 成 要 么 是 不 变 的 (immutable) 要 么 是 可 变 的 《mu- 
table) 。 不 可 变 文件 在 拷贝 到 客户 机 时 ， 它 不 能 被 客户 改变 。 可 变 文 件 可 以 被 改变 ， 这 意味 着 服务 器 需要 
管理 这 些 改 变 。 

在 AFS 中 ,每 个 文件 假定 是 不 可 变 的 。 如 果 客 户 得 到 一 个 文件 ， 然 后 对 其 进行 了 修改 ， 客 户 会 建立 
一 个 文件 的 新 版 ， 其 中 包含 了 改变 的 内 容 。 更 新 的 文件 在 关闭 时 需要 写 回 服务 器 。 如 果 在 第 一 个 客户 得 到 
文件 的 拷贝 后 ， 没 有 其 他 的 客户 得 到 文件 的 拷贝 ， 则 新 的 版 本 成 了 初始 文件 的 默认 版 本 。 

另 一 方面 ， 假 设 两 个 客户 都 获得 了 文件 的 同一 个 版 本 ， 都 进行 了 更 新 并 写 回 到 服务 器 中 。 那 么 服务 器 
将 给 每 一 个 更 新 都 分 配 一 个 唯一 的 版 本 号 , “不一致 的 ”文件 作为 同一 个 文件 的 不 同 版 本 存在 于 服务 器 中 。 
现在 ， 服 务 器 为 不 同 的 操作 而 使 用 不 同 版 本 的 文件 。 注 意 到 在 这 种 类 型 的 文件 服务 中 , “操作 ”与 在 传统 
的 文件 系统 中 相 比 有 着 不 同 的 含义 。 例 如 ,文件 删除 操作 会 移 走 最 早 版 本 的 文件 ,但 打开 操作 却 使 用 文件 
的 最 新 版 本 。 

一 致 性 机 制 要 求 客户 端 与 服务 器 都 要 维持 有 关于 文件 系统 的 状态 ， 这 会 强制 服务 器 在 每 次 文件 被 写 到 
服务 器 中 的 位 置 时 都 进行 回调 ， 并 且 结 合 一 个 失效 恢复 的 机 制 。 

AFS 系统 的 早期 版 本 只 将 文件 在 客户 端 中 进行 高 速 缓 存 ， 后 来 的 版 本 也 将 文件 目录 和 链接 符号 放 在 高 
速 缓 存 中 。 每 个 客户 端 机 器 使 用 BSD UNIX 系统 ， 因 而 打开 的 文件 在 客户 端的 磁盘 上 以 及 客户 端的 主 存 中 
都 进行 高 速 缓存 〈 在 块 级 高 速 缓存 )。 只 有 在 文件 被 关闭 时 ， 文 件 的 改变 才 被 发 送 回 服务 器 。 当 目录 发 生 
改变 时 ， 它 们 就 被 以 写 穿 透 方式 写 到 服务 器 上 。 

因为 客户 端 包 含有 一 个 磁盘 ， 因 而 当 需 要 的 时 候 ， 关 闭 的 文件 可 能 在 磁盘 中 驻 留 。 当 客户 端 打开 该 文件 
时 ， 它 就 假定 本 地 拷贝 是 一 致 的 。 服 务 器 通过 使 用 回调 机 制 ， 来 负责 通知 所 有 在 客户 磁盘 的 高 速 缓 存 中 文件 
拷贝 的 不 一 致 性 。 当 服务 器 检测 到 文件 中 的 一 个 改变 时 ， 它 通知 所 有 拥有 该 文件 拷贝 的 客户 ， 不 管 文件 当前 
是 否 被 打开 。 结 果 是 ， 服 务 器 不 需要 接收 对 本 地 高 速 缓存 中 的 文件 打开 的 验证 请 求 。 如 果 客 户 端 机 器 失效 ， 
服务 器 假定 所 有 它 的 本 地 文件 都 是 不 一 致 的 ， 因 此 要 为 磁盘 上 的 每 个 文件 生成 一 个 高 速 缓存 的 验证 请 求 。 


16.4.2 LOCUS 文件 系统 


LOCUS 文件 系统 基于 对 文件 一 致 性 进行 管理 。 该 文件 系统 是 20 世纪 70 年 代 后 期 在 UCLA 由 Popek 
和 他 的 同事 开发 的 [Walker et al., 1983]. LOCUS 是 运行 在 具有 本 地 存储 的 机 器 网 络 上 的 操作 系统 。 为 
提供 有 效 的 共享 ，LOCUS 使 用 自动 的 文件 复制 〈 并 不 要 求 文件 不 变性 ) ， 同 时 由 操作 系统 来 保证 文件 的 一 
致 。 文 件 复制 也 被 用 于 在 网 络 失败 时 增加 文件 的 可 用 性 ， 因 为 它 将 单个 网 络 划分 成 两 个 或 更 多 的 小 网 络 。 
只 要 在 每 个 划分 中 有 一 个 文件 的 拷贝 ， 系 统 就 可 以 继续 运行 直到 网 络 自我 修复 成 功 ， 然 后 使 得 文件 的 各 种 
版 本 保持 一 致 。 : 

LOCUS 通过 提供 一 个 类 似 于 16.5 节 中 所 措 述 的 远程 安装 功能 ， 从 而 扩展 了 UNIX 的 文件 系统 模型 。 
一 个 远程 目录 被 称 为 文件 稚 (filegroup) ， 可 以 在 本 地 安装 点 使 用 远程 安装 将 其 增加 到 本 地 目录 中 。 一 旦 一 
个 文件 和 能 已 经 被 增加 到 本 地 目录 ， 操 作 系统 就 有 了 足够 的 信息 来 打开 相应 的 远程 子 树 的 根 。 远 程 安装 的 文 
件 簇 的 位 置 ， 对 所 有 应 用 程序 和 用 户 所 进行 的 正常 UNIX 文件 操作 而 言 是 完全 透明 的 。 

当前 站 点 (using site) 包含 有 通过 文件 管理 器 访问 远程 文件 簇 所 需要 的 信息 。 当 客户 端 在 远程 文件 得 
中 打开 一 个 文件 时 ,文件 管理 器 的 当前 站 点 部 分 就 建立 了 一 个 与 服务 器 的 打开 文件 交互 (参见 图 16-13). 
一 旦 文件 已 经 被 打开 ， 当 前 站 点 将 从 一 个 独立 的 存储 站 点 (storage site) 中 读 写 被 高 速 缓存 的 页 。 存 储 站 
点 根据 应 用 程序 所 提供 的 read () 或 write () 操作 ， 向 当前 站 点 提供 相应 的 页 。 当 一 个 文件 被 打开 ， 当 
前 站 点 软件 通过 当前 同步 站 点 (current synchronization site, CSS) SIERRA, 当前 站 点 通过 它 的 文件 
描述 表 中 的 信息 来 确定 这 个 CSS 的 位 置 。CSS 可 能 选择 在 一 个 新 的 存储 站 点 复制 文件 ， 或 者 它 可 能 使 用 正 
存在 于 某 个 存储 站 点 中 的 拷贝 ， 这 取决 于 当 文 件 被 打开 时 的 访问 请 求 类 型 ， 以 及 当前 站 点 与 存储 站 点 的 相 
对 位 置 。 例 如 ， 为 读 而 打开 的 文件 可 以 被 拷贝 而 没有 性 能 损失 。LOCUS 可 能 通过 复制 一 个 文件 来 增加 可 
用 性 ， 这 取决 于 文件 路 径 的 特性 。 例 如 ， 由 于 目录 通常 在 读 模 式 下 被 访问 ， 因 而 通过 网 络 复制 目录 是 自然 
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的 ， 尤 其 是 位 于 根 附近 的 目录 ， 因 为 这 些 目录 与 靠近 叶 结 点 的 目录 相 比 往往 不 经 常 被 更 新 。 
一 旦 文件 被 增加 到 存储 站 点 ，CSS 就 为 访问 文件 负责 实现 全 局 的 同步 策略 。 例 如 ，CSS 只 允许 一 个 进 
程 打开 文件 进行 写 操作 ， 或 者 它 可 能 在 假定 多 个 


写 进程 分 别 写 文件 的 各 个 不 同 部 分 的 情况 下 ， 允 
许 对 文件 同时 进行 写 打开 。CSS 维持 有 说 明 哪 个 当前 

存储 站 点 有 文件 的 拷贝 以 及 哪 一 个 具有 最 新 版 本 

的 相关 信息 。 当 处 理 一 个 打开 文件 操作 时 ， 它 会 — 


传递 相应 的 版 本 信息 给 存储 站 点 ， 因 而 如 果 需 要 
的 话 ， 存 储 站 点 就 可 以 更 新 为 最 新 的 版 本 。 最 
后 ，CSS 通知 当前 站 点 其 存储 站 点 位 于 什么 地 
方 , 那么 随后 的 read () 和 write () 操作 就 可 
以 直接 使 用 该 存储 站 点 。 

当前 站 点 的 一 个 进程 可 以 读 写 来 自 文件 的 存 
储 站 点 中 的 文件 页 ， 如 同 它 是 一 个 本 地 文件 一 
RE. 在 文件 进行 read () 操作 时 ，LOCUS 文件 
管理 器 可 以 在 当前 站 点 缓存 来 自 存储 站 点 的 页 ， 
使 用 的 算法 与 缓存 来 自 本 地 磁盘 的 页 时 所 用 的 算 
法 一 样 。 在 文件 进行 write () 操作 时 ， 当 某 些 图 16-13 LOCUS 中 的 当前 站 点 、 存 储 站 点 
页 在 当前 站 点 被 写 过 时 ， 它 们 会 被 “ 写 穿 透 ”到 E. SHEPHERD LA tocus LHR 

个 写 ; oe) JG : MM vs Saon 
antsy 如 果 有 多 1 与 进程 对 应 文件 的 不 同 过 同步 文件 访问 来 确保 文件 的 一 致 性 。 这 要 求 在 当前 
贝 进行 写 操作 ， 那 么 就 使 用 事务 命令 对 在 所 有 j up way 

a ya 站 点 获得 文件 的 拷贝 进行 写 操 作 时 ， 它 必须 与 文件 的 
SE A ICRA EIT Ba. etree ee eee 
commit () 和 abort () 是 通过 LOCUS 的 文件 管 
理 器 在 当前 站 点 发 出 的 ， 而 无 需 应 用 程序 了 解 事务 的 过 程 。 文 件 系统 中 包括 有 commit () 和 abort O 命 
令 , 另外 还 有 read (), write () 命令 等 。 当 一 个 文件 被 写 打 开 时 ， 存 储 服务 器 就 生成 了 一 个 待定 的 文件 
版 本 来 存放 每 次 从 当前 站 点 进行 写 操作 的 页 。 当 当前 站 点 commit () 一 组 写 操作 或 者 关闭 文件 时 ， 待 定 的 
版 本 就 变 成 了 文件 的 实际 版 本 。 如 果 当 前 站 点 取消 了 该 次 事务 处 理 ， 则 待定 的 版 本 就 被 放弃 。 

图 16-14 中 说 明了 可 用 性 的 原理 。 文 件 秘 的 CSS 决 定 什么 时 候 基 于 网 络 的 拓扑 来 创建 更 多 的 存储 站 点 
(图 中 的 SS) 。 如 果 有 必要 ， 它 将 复制 生成 文件 的 多 个 拷贝 ， 这 样 能 够 在 网 络 单个 站 点 失败 的 情况 下 继续 
服务 。 在 图 中 ， 如 果 在 网 络 连接 中 的 粗 线 部 分 失效 的 情况 下 三 部 分 还 可 独立 工作 ， 那 么 在 任 一 连接 失败 之 
前 被 打开 的 文件 可 以 继续 使 用 ， 尽 管 CSS 将 不 能 有 效 地 完成 新 的 打开 命令 。 









Css: 当前 同步 站 点 
SS: 存储 站 点 
US: 当前 站 点 


图 16-14 ”在 一 个 不 可 靠 的 网 络 中 文件 的 有 效 性 
TE: 当 网 络 发 生 单 点 失败 时 ，LOCUS 文件 系统 被 设计 成 可 以 继续 操作 。 如 果 每 个 子 网 络 划分 包含 了 一 个 存储 站 
点 (包含 了 有 关 文 件 的 拷贝 )， 则 网 络 单 点 失败 可 以 被 处 理 。 
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16.5 目录 系统 及 其 实现 


典型 的 目录 系统 都 采用 一 种 层次 结构 ， 因 为 这 种 方法 符合 人 工 管理 文件 系统 所 使 用 的 结构 化 技术 。 远 
程 文件 系统 扩展 了 单 主 机 中 的 层次 文件 组 织 结构 ， 以 适应 网 络 中 的 主机 使 用 。 网 络 本 身 也 使 用 层次 化 的 组 
织 结构 。 例 如 ， 网 络 层 的 互联 网 地 址 就 是 一 个 带 有 一 个 未 命名 根 (假定 为 特定 互联 网 的 名 字 ) 的 三 层 树 ， 
根 的 分 支 是 互联 网 中 的 网 络 ， 网 络 的 分 支 就 是 连接 到 该 网 络 上 的 主机 (参见 第 15 章 中 对 域名 服务 的 讨 
论 )。 为 了 识别 位 于 网 络 上 各 个 主机 中 的 文件 ， 远 程 文件 系统 对 主机 的 层次 文件 名 结构 进行 了 扩展 。 


16.5.1 文件 名 字 


. 访问 远程 服务 器 上 的 文件 通常 有 两 种 方式 : 超级 路 径 名 (superpath name) 以 及 远程 安装 (remote 
mounting) 。 虽 然 超 级 路 径 名 最 先 被 用 于 网 络 文 件 服务 器 中 ,但 大 多 数 的 系统 已 经 发 展 到 采用 远程 安装 技 
术 ， 因 为 它 提供 文件 名 字 与 位 置 的 透明 性 。 

超级 路 径 名 

超级 路 径 名 扩展 了 通常 的 层次 结构 中 的 路 径 名 ， 包 括 一 个 “ 根 层 以 上 的 ”路 径 ， 其 中 的 名 字 取 自 一 个 
平板 Cla) 名 字 空 间 中 的 机 器 名 。 例 如 ， 一 组 远程 文件 服务 器 通过 超级 路 径 名 的 形式 来 标识 文件 ， 如 下 
所 示 : 

goober: /usr/gjn/book/chap16 
其 中 机 器 名 是 goober， 在 goober 上 文件 的 绝对 路 径 名 是 ; 

/asr/gjn/book/chap16 


另 一 种 替代 方式 基于 下 述 算法 来 选择 名 字 : “从 该 机 器 的 根 开始 ， 到 上 一 层 ， 然 后 遵循 从 那里 开始 的 
路 径 ”"。 在 这 种 方式 中 ,文件 的 表示 形式 如 下 : 


/,./goober: /usr/gjn/book/chap16 


超级 路 径 命名 使 得 应 用 程序 要 区 别 本 地 文件 和 远程 文件 ， 因 为 只 有 远程 文件 名 才 有 超级 路 径 的 概念 。 
支持 这 种 命名 形式 的 远程 文件 系统 中 必须 使 用 机 器 名 字 ， 为 了 识别 出 主机 ， 将 根据 语法 从 抽象 路 径 名 中 解 
析出 它 ， 然 后 它 以 机 器 名 (例如 gocber) 来 查找 机 器 的 网 络 位 置 。 在 客户 端 实现 的 文件 服务 器 部 分 将 与 远 
程 机 器 中 的 服务 器 进程 合作 来 访问 目标 文件 。 

远程 安装 , 

远程 安装 方法 因为 支持 文件 名 字 和 位 置 的 透明 性 而 被 更 为 广泛 地 使 用 。 它 是 从 UNIX 用 于 可 移动 磁盘 
介质 设备 的 安装 操作 发 展 而 成 的 〈 参 见 第 13 章 )。 本 地 的 安装 操作 允许 管理 员 将 一 个 相应 的 文件 系统 附 接 
到 系统 目录 树 的 某 个 目录 一 一 例如 ， 将 在 可 移动 磁盘 上 的 一 个 文件 系统 连接 到 机 器 的 根 文 件 系统 中 。 安 装 
的 文件 系统 替代 了 在 本 地 系统 中 的 一 个 目录 结 点 ， 那 么 只 要 文件 系统 安装 在 某 个 子 目 录 上 ， 路 径 名 就 可 以 
在 两 个 文件 系统 上 跨越 。 命 令 remote-mount 扩展 了 mount 命令 ， 这 人 允许 将 位 于 一 个 远程 主机 中 的 子 树 安装 
到 本 地 文件 系统 中 的 目录 上 。 因 此 ， 在 本 地 文件 系统 中 的 路 径 名 可 以 跨越 到 网 络 上 的 另 一 个 系统 中 ， 假 定 
后 者 被 远程 安装 。 ` 

图 16-15 中 所 示 的 remote-mount 命令 在 机 器 R 中 的 安装 点 mt _ pt 处 安装 了 机 器 S 中 的 目录 s_ root, 
因而 当 在 机 器 R 中 访问 如 下 路 径 所 指向 的 文件 时 : 


/usr/gjn/mt _ pt/zip 
与 机 器 S 中 如 下 路 径 名 所 指 的 文件 是 同一 个 文件 : 
/m_ sys/s_ root/zip 


这 种 方法 使 每 个 机 器 中 的 进程 看 到 一 个 不 同 的 网 络 文件 系统 拓扑 ， 尽 管 在 本 地 和 远程 中 的 文件 名 有 相 
同 的 形式 。 这 种 不 同 视图 所 引起 的 一 个 结果 是 ， 如 果 没 有 远程 安装 拓扑 的 知识 ， 那 么 在 不 同 机 器 的 进程 之 
间 不 能 传递 绝对 路 径 名 。 例 如 ， 如 果 在 机 器 R 中 的 一 个 进程 p; 用 消息 将 网 络 范围 的 绝对 路 径 名 传递 给 机 
2S 中 的 一 个 进程 p;， 那 么 如 果 没 有 改变 绝对 路 径 名 ，p, 将 不 能 访问 该 文件 。 
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. 图 16-15 一 个 远程 安装 的 文件 系统 
È: 在 这 个 例子 中 ， 机 器 S 中 的 子 树 (以 s_ root HAR) 被 安装 在 机 器 R 的 安装 点 mt _ pt。 除 了 安装 点 跨 过 了 
网 络 ， 这 很 像 传统 的 安装 。 


文件 系统 必须 被 远程 安装 ， 否 则 不 可 能 通过 客户 端 来 进行 访问 。 文 件 系 统 名 可 能 需要 在 一 个 全 局 的 名 
字 空间 中 发 布 一 一 例如 ， 通 过 向 名 字 服 务 器 进行 注册 。 远 程 文件 系统 通常 在 一 个 包括 名 字 服 务 器 在 内 的 网 
络 结 构 中 运行 。 例 如 ， 一 个 网 络 域 (或 一 个 更 大 的 网 络 部 分 ) 包括 有 一 个 集中 的 名 字 服 务 器 ， 用 来 注册 域 
内 要 发 布 的 文件 系统 。 文 件 服务 器 可 能 不 支持 跨 域 的 远程 文件 操作 。 客 户 端 在 名 字 服 务 器 中 查找 一 个 文件 
系统 名 ， 然 后 在 客户 端的 文件 名 空间 中 远程 安装 该 文件 系统 。 一 旦 完成 客户 端 与 服务 器 之 间 的 第 一 个 远程 
安装 ， 在 两 个 机 器 之 间 建 立 了 一 条 虚 电路 ， 随 后 的 远程 安装 就 通过 时 分 复 用 的 方式 来 使 用 存在 的 虚 电 路 。 


16.5.2 打开 一 个 文件 


回想 一 下 在 树 形 目录 结构 中 打开 一 个 文件 的 步骤 ， 通 过 树 路 径 名 说 明了 一 个 目录 序列 ， 通 过 查找 目录 
序列 发 现 目标 文件 。 如 同 在 第 13 章 中 所 指出 的 一 样 ， 一 个 路 径 的 遍历 会 导致 文件 系统 中 读 取 很 多 数目 的 
磁盘 块 ， 因 为 每 级 目录 通常 将 涉及 至 少 两 次 设备 的 read 操作 。 当 通过 网 络 针对 远程 磁盘 执行 这 些 操作 时 ， 
由 于 服务 器 负载 以 及 网 络 传输 的 开销 ， 会 使 时 间 延 迟 变 得 非常 大 。 

如 在 16.2 节 中 所 提 到 的 对 磁盘 服务 器 的 总 结 ， 这 是 远程 文件 系统 的 基本 原理 。 虽 然 远 程 磁盘 简单 并 
且 相 对 有 效 ， 但 在 一 些 情形 中 客户 端 机 器 需要 做 几 次 读 操作 ， 同 时 在 每 次 读 之 间 做 相对 少量 的 计算 一 一 例 
如 ,查找 一 个 磁盘 块 中 的 指针 。 如 果 这 种 操作 能 够 在 服务 器 中 实现 ， 那 么 就 可 以 通过 消除 网 络 延迟 来 增加 
整个 系统 的 效率 。 远 程 文件 系统 与 远程 磁盘 系统 的 差别 ， 在 于 服务 器 以 及 客户 端 中 实现 的 一 些 文件 和 目录 
系统 的 语义 是 不 同 的 。 服 务 器 提供 共享 的 文件 ， 可 以 从 每 个 客户 端 进行 访问 。 作 为 文件 服务 的 一 部 分 ， 服 
务 器 可 能 提供 并 发 控制 以 及 文件 保护 。 

当 一 个 进程 打开 一 个 位 于 远程 文件 服务 器 中 的 文件 时 ， 这 会 引起 相对 复杂 并 且 费 时 的 一 系列 步骤 。 通 
常情 况 下 ，open O 命令 会 引起 在 路 径 名 的 每 个 目录 中 进行 一 次 串 行 的 查找 。 在 查找 的 每 个 层次 中 ， 都 有 
可 能 遇 到 远程 安装 点 。 当 遇 到 一 个 远程 安装 点 时 ， 随 后 的 目录 查找 必须 交 给 在 远程 机 器 中 的 文件 服务 器 来 
完成 。 例 如 ， 在 图 16-16 所 示 的 网 络 文件 系统 中 ， 机 器 S 中 的 目录 s _ root 被 远程 安装 在 机 器 R 中 的 安装 
amt pt kK; 同样 ， 机 器 T 中 的 目录 bin 被 远程 安装 在 机 器 S 中 的 安装 点 zip 上 。 如 果 位 于 机 器 R 中 的 
进程 使 用 如 下 的 路 径 名 来 打开 一 个 文件 : 


/usr/gjn/mt _ pt/zip/xpres 


那么 打开 请 求 首先 在 机 器 R 中 进行 处 理 ， 直 到 遍历 遇 到 了 远程 安装 点 mt _ pt; 然后 机 器 R 传递 路 径 到 机 
器 S, 在 S 中 重新 在 目录 s_ rot 中 查找 ， 到 又 过 到 了 远程 安装 点 zip; 然后 机 器 S 传递 路 径 到 机 器 工 的 
文件 系统 中 ,将 在 bin 目录 中 打开 名 为 xpres 的 文件 。 远 程 文 件 系统 中 的 绝对 路 径 名 ， 有 可 能 导致 跨越 不 
同 的 文件 系统 而 进行 大 量 的 分 布 式 处 理 。 

在 UNIX 文件 系统 中 ， 一 个 成 功 的 文件 打开 操作 会 导致 文件 描述 表 被 加 载 到 客户 端的 机 器 中 。 这 可 能 
也 被 大 多 数 的 其 他 系统 所 要 求 ， 因 为 文件 的 当前 状态 是 保存 在 文件 描述 表 中 的 。 如 果 有 两 个 不 同 的 客户 端 
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进程 打开 同一 个 文件 ， 那 么 每 一 个 客户 端 都 将 缓存 打开 的 文件 描述 表 的 内 容 。 取 决 于 操作 系统 策略 ， 两 个 
系统 可 能 都 被 允许 同时 有 打开 文件 进行 写 操作 。 在 很 多 的 UNIX 版 本 中 这 是 可 以 接受 的 。 这 种 情形 说 明了 
为 控制 对 一 个 文件 的 并 发 访问 ， 存 储 锁 是 必要 的 ， 从 而 实现 多 个 打开 操作 情形 时 文件 数据 的 正确 性 。 一 些 
远程 文件 系统 提供 了 加 锁 机 制 ， 其 他 系统 一 一 例如 Sun NFS 的 早期 版 本 中 并 没有 提供 相应 的 机 制 。 





图 16-16 打开 远程 文件 
TE: 为 了 到 达 目 标 文件 ， 文 件 打 开 操 作 需 要 遍历 绝对 路 径 名 。 当 在 网 络 中 使 用 远程 安装 操作 时 ， 在 实现 打开 操 
作 时 会 涉及 多 台 机 器 。 


16.6 小 结 


文件 是 计算 机 中 可 以 永久 存储 的 单位 ， 并 且 是 一 组 进程 之 间 交 换 信息 的 自然 方式 。 共 享 使 用 文件 的 最 
简单 形式 ， 是 通过 如 UNIX 中 的 uucp 这 种 显 式 文件 共享 命令 来 进行 的 。 

网 络 文件 服务 是 对 文件 抽象 的 一 种 逻辑 扩展 ， 它 们 使 用 正常 的 文件 管理 接口 ， 通 过 与 分 布 式 的 文件 管 
理 器 相连 接 的 设施 ， 支 持 拷贝 或 访问 位 于 其 他 机 器 中 的 文件 。 远 程 磁盘 服务 器 将 功能 进行 划分 ， 让 设备 驱 
动 程序 在 服务 器 中 实现 ， 而 整个 文件 管理 器 在 每 个 客户 端 机 器 中 实现 。 远 程 文件 服务 器 则 分 布 文件 管理 器 
功能 ， 让 其 部 分 功能 在 服务 器 中 实现 ， 而 另 一 部 分 在 客户 端 中 实现 。 

远程 磁盘 设计 的 关键 问题 是 性 能 和 可 靠 性 。 对 性 能 的 关心 源 于 管理 实现 远程 访问 磁盘 以 及 网 络 传输 所 
引起 的 开销 。 高 速 缓存 用 于 减 小 访问 文件 的 时 间 ， 但 一 个 最 大 的 问题 就 是 它 又 产生 了 不 一 致 性 。 可 恢复 能 
力 可 以 划分 成 与 可 靠 的 命令 执行 相关 的 问题 及 与 失效 恢复 相关 的 问题 。 可 靠 的 命令 执行 通过 在 每 个 客户 端 
对 服务 器 调用 使 用 超时 计时 而 获得 。 通 过 设计 服务 器 时 不 让 它 包含 任何 状态 可 以 很 容易 地 获得 可 恢复 能 
力 。 在 这 种 情形 中 ， 如 果 服 务 器 失效 后 又 恢复 ， 它 不 需要 为 恢复 任何 状态 而 试图 与 客户 端 进行 同步 ， 因 为 
客户 端 中 包含 所 有 的 状态 。 

远程 文件 服务 器 进行 数据 缓存 按 特点 可 分 成 两 种 : 在 一 个 时 间 内 只 缓存 文件 部 分 内 容 及 在 一 个 时 间 内 
缓存 整个 文件 。 在 任 一 种 情形 中 ， 维 持 高 速 缓存 信息 之 间 的 一 致 性 是 一 个 重要 的 设计 问题 ， 也 是 一 个 难以 
解决 的 问题 。 在 只 高 速 缓存 文件 部 分 内 容 的 服务 器 中 ， 性 能 和 可 恢复 能 力 是 在 相互 对 立 中 获得 平衡 的 ， 尽 
管 它们 都 重要 。 在 高 速 缓存 整个 文件 的 服务 器 中 ， 所 采取 的 原则 是 文件 是 不 变 的 ， 除 非 有 特别 说 明 。 

所 有 的 文件 服务 器 必须 支持 层次 结构 的 文件 名 和 目录 操作 。 在 UNIX 中 主要 的 命名 方法 是 ; 为 了 在 网 
络 上 扩展 目录 层次 结构 ， 将 本 地 系统 的 mount 命令 归纳 到 一 个 特殊 的 remote mount 命令 。 远 程 安装 技术 被 
广泛 使 用 ， 但 它 使 文件 打开 操作 复杂 化 ， 因 为 需要 每 个 系统 的 文件 服务 器 来 解决 层次 结构 中 只 属于 它 的 那 
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部 分 路 径 名 。 
本 章 的 前 一 部 分 提出 一 个 模型 并 描述 了 程序 员 所 使 用 的 存储 接口 ， 接 着 详细 介绍 了 使 用 辅 存 接口 来 支 


持 分 布 式 访问 存储 在 文件 中 的 信息 。 下 一 章 中 将 重新 考虑 这 些 接口 ， 介 绍 如 何 用 主 存 接口 来 访问 网 络 上 的 


信息 。 
16.7 
1. 


oOo N 


习题 

下 面 的 哪个 命令 是 寡 等 的 ? 解释 你 的 答案 。 
a. 关闭 文件 的 命令 。 

b. 从 记录 表面 回归 磁盘 头 的 命令 。 

c. 将 磁头 向 前 或 向 后 移动 一 个 磁道 的 命令 。 
d. 删除 目录 的 命令 。 

e. 遍历 目录 树 的 命令 。 


- 假设 在 一 个 远程 磁盘 服务 器 系统 中 ， 服 务 器 中 的 磁盘 的 平均 块 传输 时 间 为 8 毫秒 ， 而 客户 端 中 的 


磁盘 的 平均 块 传输 时 间 为 88 毫秒 〈 按 今天 的 标准 看 是 很 慢 的 ) 。 
a. 为 了 使 远程 磁盘 服务 器 的 访问 时 间 低 于 本 地 磁盘 的 访问 时 间 ， 网 络 上 的 吞吐 量 必须 多 快 ? 
b. 哪 三 个 网 络 协议 参数 或 因素 对 这 个 分 析 的 影响 最 大 ? 为 什么 ? 


. 当代 硬盘 旋转 速率 从 4000rpm 到 大 约 15 000rpm。 你 能 期 望 快速 磁盘 的 访问 时 间 (移动 头 到 目标 块 


并 将 目标 块 传输 到 磁盘 控制 器 缓冲 的 时 间 ) 差不多 为 慢 速 磁盘 的 四 倍 吗 ? 解释 你 的 回答 ! 


. 在 1980 年 ， 研 究 经 验 表明 服务 器 是 远程 文件 系统 中 的 瓶颈 。 假 设 一 个 无 状态 的 文件 服务 器 ， 如 同 


Sun NFS 一样 ， 使 用 像 原始 IP 这 种 报 文 级 的 协议 。 设 想 一 下 对 于 文件 的 读 写 操 作 ， 瓶 颈 分 别 在 
哪里 ? l 


. 假设 一 个 文件 服务 器 中 ， 文 件 状态 被 分 布 在 客户 端 和 服务 器 上 。 解 释 一 下 为 什么 客户 端 和 服务 器 


必须 都 要 有 打开 文件 的 文件 锁 拷贝 。 


- 若 同 一 个 目录 被 远程 安装 在 两 个 不 同 机 器 中 的 两 个 不 同 的 安装 点 ， 你 是 赞成 还 是 反对 ， 为 什么 ? 
. 让 带 文件 高 速 缓存 的 服务 器 在 任意 时 刻 只 允许 一 个 客户 对 一 个 文件 进行 写 打 开 的 优点 是 什么 ? 
. 争论 一 下 ,在 /bin 中 的 文件 被 访问 时 (在 一 个 UNIX 系统 中 ) ， 你 是 赞成 还 是 反对 进行 高 速 缓 存 ? 


9. 描述 一 个 应 用 域 ， 其 中 不 变 文 件 是 处 理 客户 与 服务 器 之 间 的 文件 高 速 缓存 问题 的 最 佳 方式 。 
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11. 


12. 


, 在 类 似 于 VFS 的 文件 管理 器 设计 中 ， 每 个 文件 系统 在 使 用 之 前 要 被 安装 。 确 定 和 解释 在 安装 时 文 


件 管理 器 的 无 关 部 分 和 相关 部 分 必须 要 做 的 三 个 任务 。 

在 类 似 于 VFS 文 件 管理 器 的 设计 中 ， 在 打开 文件 时 ， 确 定 和 解释 文件 管理 器 的 相关 部 分 和 无 关 部 
分 必须 要 做 的 三 个 任务 。 

设计 并 实现 一 个 基本 的 文件 服务 器 ， 它 能 够 保存 文件 ， 将 文件 拷贝 到 客户 端 ， 并 且 列 表 显 示 以 前 
保存 在 服务 器 中 的 文件 (不 需要 实现 更 多 一 般 的 目录 或 其 他 文件 管理 功能 )。 当 服务 器 收 到 一 个 
保存 命令 时 ， 它 应 该 在 随后 的 报 文中 接收 一 个 有 n 个 字 节 的 字 节 流 ， 然 后 将 字 节 流 作 为 一 个 文件 
保存 在 本 地 文件 系统 〈 使 用 传统 的 UNIX 用 于 本 地 文件 管理 的 命令 )。 拷 贝 命令 应 该 识别 一 个 文 
件 并 且 引 起 服务 器 利用 一 系列 的 数据 报 将 文件 写 到 客户 端 。 列 表 显 示 命 令 应 该 让 服务 器 返回 一 个 
文件 名 列表 到 客户 端 。 


客户 端 与 服务 器 应 该 使 用 UDP 进行 交互 (而 不 是 TCP)。 不 需要 实现 可 靠 的 数据 报 服务 ， 即 你 可 以 假 
定数 据 报 能 够 被 可 靠 地 接收 。 你 将 必须 编写 一 个 简单 的 客户 端 程序 来 测试 你 的 服务 器 。 客 户 端 应 该 能 够 拷 
员 几 个 文件 到 服务 器 中 ,列表 显示 它们 ， 然 后 能 够 重新 获得 其 中 的 一 些 文件 。 





第 17 章 ”分布 式 计算 


远程 文件 系统 是 首先 被 重点 用 来 发 挥 高 速 网 络 优势 的 机 制 。 然 而 ， 文 件 是 粗 粒 度 的 信息 容器 ， 最 初 设 
计 它 是 为 了 适用 于 批 处 理 计 算 的 模型 。 仅 使 用 文件 管理 器 接口 限制 了 分 布 式 程序 的 形式 。 后 来 的 操作 系统 
都 考虑 其 他 的 方法 来 支持 网 络 计 算 ， 这 些 方 法 会 更 适用 于 网 络 环境 。 

本 章 的 目标 是 介绍 支持 分 布 式 计算 的 最 重要 的 操作 系统 技术 。 通 常情 况 下 ， 对 分 布 式 计算 的 支持 是 建 
立新 的 专门 网 络 协议 ， 因 此 这 个 主题 更 多 关注 于 对 高 层 协议 的 研究 。 本 章 从 分 析 分 布 式 主 存 系统 的 特征 开 
始 ， 随 后 ,我们 考虑 操作 系统 允许 一 台 机 器 上 的 线程 调用 远程 机 器 上 的 过 程 或 对 象 方法 。 最 后 ， 我 们 复习 
在 分 布 式 环境 中 用 来 实现 进程 管理 的 思想 。 包 括 同步 和 IPC。 支 持 分 布 式 计算 的 操作 系统 的 研究 是 大 多 数 
操作 系统 研究 者 和 研究 生 课程 中 的 主题 ， 在 这 方面 有 大 量 的 专著 (例如 ， 参 见 Maekawa et al. [1987]、 
Singhal and Shivaratri [1994] 以 及 Tanenbaum [1995])。 


17.1 分 布 式 操作 系统 机 制 


第 1 一 14 章 描述 了 管理 单个 计算 机 的 操作 系统 基础 。 在 第 15 章 ， 你 了 解 到 将 网 络 加 入 计算 机 来 建立 
分 布 式 计算 的 基础 。 在 20 世纪 80 年 代 ， 局 域 网 引起 了 商业 界 的 极 大 兴趣 ， 因 为 它 提供 了 一 个 快速 和 便宜 
的 方式 来 连接 计算 机 。 这 是 分 布 式 计算 的 一 个 极 大 进步 ， 应 用 程序 可 以 直接 使 用 网 络 ， 以 前 它 仅 能 使 用 点 
到 点 通信 。 这 导致 的 直接 结果 是 终端 仿真 器 的 广泛 使 用 ， 它 使 得 一 个 人 可 以 坐 在 个 人 计算 机 前 ， 就 好 像 连 
接 到 远程 分 时 计算 机 的 终端 一 样 打开 窗口 ， 进 行 远程 机 器 的 使 用 。 甚 至 今天 ,许多 人 在 他 们 的 个 人 计算 机 
上 使 用 终端 仿真 器 来 与 远程 计算 机 建立 面向 文本 的 会 话 。 网 络 是 电话 交换 系统 和 点 到 点 连接 的 直接 蔡 
代 品 。 

设计 者 很 快意 识 到 利用 LAN (最 终 是 互联 网 ) 的 一 些 其 他 方法 。 使 用 分 时 计算 机 的 一 个 问题 是 当 负 
荷 较 重 时 ， 响 应 时 间 会 变 得 不 确定 。 可 供 选 择 的 办 法 是 设计 并 行程 序 在 个 人 计算 机 或 工作 站 上 运行 ， 而 不 
是 在 共享 的 计算 机 上 。 数 据 仍然 保持 在 分 时 机 器 上 ， 操 作 系统 会 暂时 地 将 数据 从 分 时 机 器 (现在 称 为 服务 
器 ) 移 到 个 人 计算 机 上 (现在 称 为 客户 机 )。 客 户 机 使 用 这 些 数据 来 运行 程序 ， 然 后 将 数据 和 结果 返回 服 
务 器 。 

这 是 远程 文件 服务 器 技术 发 展 的 环境 。 在 第 16 章 ， 你 了 解 到 远程 磁盘 服务 器 实际 上 仅 负责 存储 数据 ， 
远程 磁盘 方法 假定 文件 管理 器 全 部 在 客户 机 上 执行 。 远 程 磁 盘 中 的 问题 是 客户 有 太 多 的 智能 (而 服务 器 并 
没有 足够 的 智能 )。 这 使 得 客户 需要 处 理 太 多 的 工作 ， 也 引起 了 不 必要 的 网 络 流量 。 远 程 文件 服务 器 方法 
通过 将 文件 管理 器 软件 分 布 在 客户 和 服务 器 间 来 解决 这 个 问题 。 这 样 一 来 ， 网 络 流量 减少 了 ， 在 客户 和 服 
务 器 间 负 载 更 均衡 。 在 一 般 的 分 布 式 计算 中 ， 也 发 生 了 相同 的 演变 ， 仅 运行 在 客户 上 的 应 用 程序 或 仅 运行 
在 服务 器 上 的 应 用 程序 被 分 成 两 个 或 多 个 部 分 ， 每 一 部 分 在 通过 高 速 网 络 连接 的 不 同 机 器 上 执行 。 

从 20 世纪 60 年 代 以 来 ， 有 一 个 软件 研发 者 阵营 希望 为 应 用 程序 获得 越 来 越 高 的 性 能 。 这 个 阵营 的 驱 
动力 来 自 支持 前 沿 科学 计算 一 一 这 种 应 用 是 计算 受 限 的 。 由 于 单个 计算 机 速度 的 物理 限制 ， 这 个 阵营 开始 
担心 应 用 性 能 的 上 限 。 毕 竟 ， 每 个 计算 机 的 处 理 速度 最 终 依赖 于 电信 号 在 计算 机 组 件 间 的 传输 速率 。 例 
如 ， 在 汉 : 诺 依 曼 计算 机 中 ， 控 制 单元 需要 发 信和 号 给 ALU, ALU 和 控制 单元 需要 发 信号 给 存储 器 等 。 甚 至 
在 40 年 以 前 ,开发 商 就 意识 到 这 个 限制 并 开发 了 其 他 的 软件 机 制 来 加 速 应 用 软件 的 执行 ， 当 然 ， 他 们 不 
可 能 猜测 到 单 计 算 机 体系 结构 会 如 何 发 展 : 今天 的 计算 机 速度 远 远 超过 了 这 些 开发 商 的 想像 。 

然而 ， 单 处 理 机 的 计算 速度 终归 有 一 个 上 限 。 最 终 ， 软 件 和 硬件 设计 者 转向 采取 并 行 来 提高 性 能 。 如 
图 17-1a 所 示 ， 通 用 的 方法 是 先 启动 一 个 在 单 处 理 机 上 执行 的 顺序 程序 ， 然 后 将 计算 分 成 半 独 立 的 部 分 。 
基本 原理 是 如 果 问 题 可 以 分 解 成 图 17-1a 中 的 五 个 部 分 ， 然 后 将 计算 的 各 个 部 分 放 在 三 个 独立 的 处 理 机 上 
执行 。 在 图 17-lb 中 ， 部 分 A 串 行 执行 ， 紧 跟着 是 在 三 个 处 理 机 上 的 部 分 B、C、D 并 行 执行 。 最 后 是 部 分 
EE 的 串 行 执行 。 使 用 分 布 任务 的 思想 ， 分 布 式 计算 的 执行 时 间 为 单 处 理 机 上 解决 这 个 问题 执行 时 间 的 1/3。 
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当然 ， 通 过 图 17-1b 我 们 可 以 明白 很 难 达到 最 大 的 三 倍加 速 比 ， 因 为 部 分 A 和 王 仍 然 是 串 行 的 。 为 了 完成 
最 大 化 的 加 速 比 ， 我 们 需要 将 原始 的 顺序 计算 划分 成 N 个 不 同 的 组 件 ， 每 个 都 需要 同时 执行 ， 执 行 时 间 
准确 为 1/N 基本 上 是 不 可 能 的 ， 因 为 计算 有 初始 化 和 扫尾 周期 。 事 实 上 ， 当 我 们 将 串 行 计 算 进 行 划分 时 ， 
我 们 也 引进 了 新 的 通信 和 同步 开销 ， 所 以 甚至 在 完美 的 划分 中 ， 每 个 划分 的 组 件 仍 需 要 1/N 个 时 间 单元 。 

对 于 这 种 应 用 领域 ， 分 布 式 计算 是 一 种 极 好 的 方法 。 如 果 操 作 系统 能 提供 这 样 一 种 环境 ， 使 得 应 用 程序 
员 可 以 划分 和 分 布 计算 ,然后 他 们 就 可 以 让 划分 的 计算 部 分 在 通过 高 速 网 络 互 连 的 不 同 计算 机 上 运行 。 尽 管 
这 种 计算 一 定 不 会 达到 最 大 的 加 速 比 ， 即 使 这 样 ， 这 些 分 布 式 应 用 程序 仍然 比 顺序 计算 的 程序 运行 得 更 快 。 





a) 分 解 工作 b) 并 行 操作 
图 17-1 通过 并 行 来 提高 性 能 
TE: 经 典 的 顺序 程序 可 以 被 划分 成 半 自 治 部 分 ， 如 图 中 的 a) 所 示 ， 称 为 A、B、C、D 和 下 。 基 本 思想 是 当 可 能 
时 ， 调 度 计算 的 各 个 部 分 来 并 行 执行 。 如 b) 部 分 所 示 ， 计 算 常 有 隐 含 的 串 行 需求 ， 如 计算 中 的 数据 结构 在 
使 用 之 前 必须 被 初始 化 。 


到 1990 年 ， 廉 价 硬件 计算 环境 的 出 现 使 得 分 布 式 应 用 阵营 可 以 用 它 来 建立 性 价 比较 高 的 解决 方法 。 
单个 计算 机 对 执行 大 量 计算 来 说 已 经 足够 快 。10Mbps 的 LAN (和 扩展 的 互联 网 ) 已 经 随处 可 见 。 很 容易 
将 计算 机 进行 互 连 来 处 理 共同 的 任务 ， 操 作 系统 开发 者 也 利用 硬件 中 可 用 的 并 行 部 分 来 试图 建立 逻辑 计算 
环境 。 从 1990 年 开始 ， 相 当 多 的 新 的 操作 系统 技术 已 经 被 开发 来 支持 分 布 式 计算 : 

图 分 布 式 存储 器 (distributed memory) 意 在 使 得 不 同 计算 机 上 的 进程 内 线程 可 以 读 写 公 共 的 可 执行 存储 。 

m 远程 过 程 调用 (remote procedure call) 提供 了 这 样 一 种 环境 ， 在 一 台 计算 机 上 执行 的 线程 可 以 调用 

一 台 计 算 机 上 的 过 程 。 
E ŽS (remote object) 是 远程 过 程 调用 的 扩展 ， 因 为 这 种 机 制 允 许 一 台 计 算 机 上 的 软件 调用 位 
于 远程 计算 机 上 的 对 象 的 成 员 函 数 。 
m 进程 管理 (process management) 指 的 是 由 操作 系统 提供 的 工具 ， 使 得 它 可 以 管理 远程 计算 机 上 的 进 
程 和 线程 。 
E 分 布 式 同步 和 进程 间 通 信 (distributed synchronization and IPC) 机 制 允 许 线程 同步 化 它们 的 操作 ， 以 
及 将 信息 传递 给 在 远程 计算 机 上 执行 的 线程 。 

分 布 式 程序 设计 中 的 前 沿 技术 体现 在 操作 系统 为 分 布 式 应 用 提供 的 那些 重要 的 使 能 机 制 。 然 而 ， 建 立 
有 效 的 应 用 对 开发 者 而 言 仍然 是 一 个 巨大 的 负担 。 回 忆 第 8 章 和 第 9 章 描述 的 同步 机 制 ， 虽 然 它 们 可 以 使 
得 应 用 程序 员 来 建立 多 个 进程 ， 并 发 运行 程序 。 但 是 应 用 程序 员 仍然 必须 确定 这 些 机 制 如 何 被 使 用 ， 使 得 
它们 可 被 用 来 解决 特定 的 问题 (如 有 限 缓冲 和 读者 - 写 者 问题 )。 

这 也 是 分 布 式 计算 机 制 的 问题 ， 支 持 分 布 式 计算 的 操作 系统 建立 了 支持 分 布 式 应 用 的 抽象 环境 ， 但 是 
应 用 程序 员 负责 充分 利用 这 种 环境 。 因 为 分 布 式 计算 的 潜在 复杂 性 ， 软 件 环境 变 得 更 复杂 ， 它 的 目标 是 为 
分 布 式 程序 员 提供 更 好 的 支持 。 今 天 ， 系 统 软件 设计 者 通常 建立 中 间 件 和 运行 时 系统 来 简化 底层 操作 系统 
技术 的 使 用 。 这 些 扩展 的 相似 例子 包括 I/O 类 库 、 窗 口 系 统 和 动态 存储 管理 器 。 下 一 章 通过 描述 当代 分 布 
式 程序 设计 运行 时 系统 如 何 抽象 基本 的 操作 系统 机 制 ， 来 对 本 章 进行 补充 。 在 程序 员 充 分 使 用 操作 系统 分 
布 式 程序 设计 工具 之 前 ， 这 些 新 的 运行 时 系统 打算 减少 程序 员 需 要 学 习 的 细节 工作 量 ， 在 这 章 中 ， 我 们 着 
重 介绍 操作 系统 的 工具 。 
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17.2 分 布 式 主 存 

图 17-2 是 图 16-2 所 示 的 存储 接口 的 详尽 描述 。 它 反映 了 远程 磁盘 和 文件 服务 器 的 实现 。 在 分 布 式 主 
存 系统 中 ， 目 标 就 是 使 用 主 存 接口 来 访问 远程 计算 机 上 的 主 存 。 操 作 系 统 设计 者 尝试 了 几 种 不 同 的 模型 来 
处 理 不 同形 式 的 分 布 式 主 存 。 最 广泛 采用 的 方法 是 远程 存储 器 和 分 布 式 共享 存储 器 。 





图 17-2 存储 系统 的 传统 接口 
注 : 这 幅 图 概括 了 主 存 和 辅 存 的 传统 接口 ， 包 括 了 远程 磁盘 和 文件 服务 器 设计 。 在 远程 存储 器 和 分 布 式 共享 存 
储 器 系统 中 ， 应 用 使 用 可 执行 存储 器 接口 而 不 是 文件 系统 接口 。 


当局 域 网 变 得 成 熟 并 变 得 通用 时 ， 软 件 设计 者 意识 到 存在 极 大 的 机 会 来 构建 有 效 的 分 布 式 应 用 。 分 布 
式 应 用 软件 开发 商 立 即 意 识 到 ， 通 过 利用 LAN 可 能 使 得 技术 出 现 一 个 巨大 的 飞跃。 同时 ， 操 作 系统 开发 
商 试 图 计算 出 如 何 管理 LAN 并 试图 将 最 好 的 API 呈现 给 应 用 程序 员 。 

Æ 20 世纪 90 年 代 早期 ， 分 布 式 应 用 程序 员 对 操作 系统 的 革新 失去 了 耐心 ， 开 始 设计 了 大 量 的 消息 传 
递 和 远程 存储 器 方案 (GLA 17-3)。 远 程 存储 器 机 制 指定 了 一 个 可 供 选 择 的 存储 器 API， 它 定义 和 共享 了 
逻辑 存储 器 。 远 程 存储 器 通常 情况 下 是 作为 中 间 件 实现 的 ， 例 如 ， 使 用 操作 系统 IPC 机 制 实现 存储 分 布 的 
类 库 。 最 明显 的 早期 的 工具 是 Linda 系统 [Carriero and Gelernter, 1986]. 





图 17-3 ”远程 存储 器 的 新 接口 


注 : 远程 存储 器 设计 成 让 本 地 客户 与 远程 存储 器 服务 器 交互 ， 来 读 写 服务 器 上 的 存储 器 ， 就 好 像 它 是 一 个 本 地 
可 执行 存储 器 一 样 。 远 程 存储 器 技术 改变 了 基本 的 冯 ' 诺 依 曼 处 理 模型 ， 这 是 通过 增加 提供 给 进程 /线程 使 
用 的 读 写 远 程 存储 器 的 新 接口 来 实现 的 。 OS 
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当 远 程 存储 器 包 被 分 布 式 应 用 程序 员 广泛 使 用 时 ， 操 作 系统 设计 者 开始 想 一 些 其 他 的 方式 来 实现 网 络 
存储 器 ， 更 好 的 主 存 使 用 形式 应 该 是 使 用 已 存在 的 
接口 。 分 布 式 共享 存储 器 系统 使 用 图 17-4 所 显示 的 2 
一 般 策略 。 基 本 思想 是 对 本 地 计算 机 的 分 页 系统 进 se ‘ 


行 扩展 ， 使 得 它 可 以 从 远程 页 服务 器 上 得 到 所 缺 的 
页 。 

远程 和 分 布 式 共享 存储 器 提供 了 几 种 替代 方法 
来 表示 一 个 远程 访问 地 址 空间 。 将 地 址 空间 表示 给 
程序 员 的 最 好 方法 是 什么 ? 网 络 存储 器 是 共享 存储 
器 ， 因 为 它 会 被 多 个 机 器 上 的 多 个 线程 使 用 ， 因 此 ， 
任何 设计 必须 提供 共享 以 及 远程 访问 。 

网 络 存储 器 典型 地 将 信息 作为 一 组 存储 块 并 提 
供 对 其 访问 的 方法 。 块 规范 可 以 从 程序 设计 语言 中 
得 到 ， 意 味 着 它们 有 高 级 语义 。 例 如 ， 可 以 定义 块 SS 
使 它 对 应 于 一 个 对 象 、 一 个 导出 的 数据 结构 或 动态 


分 配 存储 块 (类 似 于 UNIX 的 malloc O 调用 )。 远程 分 页 
有 两 种 类 型 的 硬件 体系 结构 来 实现 分 布 式 主 存 : 服务 器 
、 , i Rs N 
四 多 计算 机 (multicomputer): HEPIE ao 在 分 布 式 共享 存储 器 中 重用 主 存 接口 


造 一 个 “多 ” 司 时 不 同 
各 一“ 允 计 算 机 ”机 器 ， 同 时 不 同 的 处 理 。 注 ， 分 布 趟 共享 存储 器 通常 假定 本 地 操作 系统 支持 
机 有 对 机 器 整 I 存储 器 的 访问 权 。 这 种 机 器 分 页 。 虚拟 存储 器 机 制 包含 能 从 远程 页 面 服务 


是 非 一 致 的 存储 访问 (NUMA) 机 器 ， 因 为 器 上 加 载 或 卸载 页 的 客户 端 。 
对 于 一 个 特定 的 处 理 机 而 言 ， 对 不 同 存储 位 
置 的 访问 时 间 是 不 同 的 。 虽然 这 些 机 器 只 对 自己 的 权限 感 兴趣 ， 但 因为 它们 的 分 布 式 存储 器 设计 是 
一 种 硬件 实现 ， 因 此 在 本 书 中 并 没有 描述 ， 本 书 只 关注 网 络 环境 。 . 
B 机 器 网 络 (network of machine): 另 一 种 类 型 的 分 布 式 存储 器 设计 ， 通 过 使 用 基于 报 文 的 网 络 来 支 
持 对 存储 块 的 访问 ， 从 而 提供 了 一 种 逻辑 的 共享 存储 器 接口 。 
图 17-5 解释 了 网 络 存储 器 设计 的 两 种 通用 方法 。 在 图 17-5a F, ME S 的 操作 系统 分 配 了 一 块 主 存 
M， 它 被 执行 在 机 器 R 和 S 上 的 进程 1 和 2 所 共享 。 当 进程 1 访问 分 布 式 存储 器 时 ， 访 问 被 转换 成 机 器 S 
上 的 一 个 服务 请 求 。R 中 的 分 布 式 存储 器 客户 端 和 S 中 的 服务 器 端 间 的 通信 使 用 了 一 个 合适 的 网 络 协议 。 
这 种 方法 太 慢 而 低 效 ， 因 为 对 每 个 存储 字 节 的 访问 促使 了 双向 的 网 络 报 文 交换 。 可 以 缓存 每 个 存储 块 来 消 
除 高 频率 的 流量 ， 如 图 中 的 b 部 分 所 示 。 
在 图 17-5b 所 显示 的 第 二 种 方法 中 ， 机 器 R 在 进程 1 的 地 址 空间 中 建立 了 块 M 的 拷贝 。 现 在 ,在 机 
器 S 中 的 进程 2 对 块 M 的 访问 是 本 地 的 ， 在 机 器 R 中 的 进程 1 对 块 M 的 访问 也 是 本 地 的 。 这 样 做 的 优 
点 是 它 的 访问 速度 很 快 ， 缺点 是 当 进 程 1 往 块 M 中 写 人 数据 时 ， 就 会 出 现 问 题 。 机 器 S 和 R 中 的 拷贝 是 
不 同 的 ， 即 共享 存储 器 是 不 一 致 的 ， 因 为 两 个 进程 在 相同 的 存储 单元 内 看 到 了 不 同 的 值 。 如 果 对 块 进行 了 
缓存 ， 网 络 存储 系统 必须 提供 一 种 机 制 来 确保 存储 器 的 一 致 性 。 
当 设 计 网 络 存储 系统 时 ， 有 几 个 其 他 的 问题 需要 考虑 : 
Bn 存储 接口 (memory interface): 应 该 在 模型 中 采用 一 种 显 式 接口 来 访问 网 络 存储 器 ， 还 是 重新 使 用 
已 经 存在 的 主 存 接口 来 访问 远程 的 存储 器 呢 ? 
m 位 置 透明 性 〈location transparency): 进程 应 该 知道 多 少 有 关 地 址 空间 远程 部 分 位 置 的 知识 呢 ? 
AFH (unit of sharing): 在 地 址 空间 中 的 共享 单元 是 什么 呢 ? 是 数据 结构 、 页 、 段 ， 还 是 其 他 的 





单元 。 
B 名 字 管 理 (name management): 信息 将 必须 通过 命名 的 共享 单元 进行 输入 或 输出 ， 那 么 这 怎么 处 
理 呢 ? 


m 实现 效率 (implementation efficiency) : 假设 两 个 进程 和 它们 的 地 址 空间 在 不 同 的 机 器 中 ， 那么 什么 
是 远程 存储 的 共享 存储 器 的 有 效 实现 呢 ? “ 
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RM 
a) 非 直接 访问 b) 信息 拷贝 


图 17-5 ”共享 存储 块 
注 ， 共享 存储 央 的 方法 我 们 已 经 很 熟悉 了 (由 于 我 们 研究 了 远程 文件 )。 如 果 存 储 块 在 适当 的 地 方 被 共享 ， 那 么 
那里 的 网 络 流量 将 很 大 。 如 果 块 通过 高 速 缓存 被 共享 ， 那 么 必须 要 处 理 -一 致 性 问题 。 


对 于 解决 这 些 问 题 并 没有 达到 一 一 致 的 最 好 方式 。 本 节 的 其 余部 分 将 描述 远程 存储 器 ， 分 布 式 共享 存储 器 是 
如 何 实现 网 络 存储 器 的 。 


17.2.1 远程 存储 器 


远程 存储 器 (remote memory) 是 指 任 一 种 网 络 存储 实现 方法 ， 其 网 络 存储 器 是 通过 使 用 一 个 不 同 于 
通常 的 主 存 接口 和 文件 接口 的 特殊 接口 来 访问 的 。 远 程 存 储 接口 扩展 了 汉 . 诺 依 曼 机 器 中 所 建议 的 传统 编 
程 模 型 。 例 如 ， 程 序 员 可 以 明确 地 标识 被 映射 到 相应 共享 存储 器 中 的 地 址 空间 部 分 ， 而 将 其 他 的 部 分 映射 
到 本 地 私有 存储 器 中 。 这 表明 编程 语言 被 扩展 ， 并 且 程序 员 必须 在 编译 时 标识 共 
通过 声明 一 个 数据 结构 并 且 使 它 成 为 共享 的 。 

存储 接口 

在 设计 存储 接口 时 要 涉及 两 个 关键 的 问题 ， 

m 存储 器 如 何 声明 为 远程 的 ? 即 远程 存储 器 如 何 被 映射 到 一 个 进程 的 地 址 空间 中 ? 

a 一 旦 存储 器 已 经 声明 为 远程 的 ， 那 么 如 何 对 它 进 行 读 写 呢 ? 

存储 接口 的 设计 是 一 个 发 展 中 的 课题 ， 它 要 求 为 使 用 远程 存储 器 开发 一 种 可 以 普遍 接受 的 新 编程 规 
范 。 在 今天 的 操作 系统 中 还 没有 一 种 主流 的 方法 。 在 实验 9.1 中 所 描述 的 POSIX 共享 存储 器 API 提供 了 共 
享 存储 器 接口 的 一 个 例子 ， 也 许 这 个 接口 是 远程 存储 器 接口 的 基础 。 该 POSIX 接口 的 特征 应 该 简洁 ， 其 语法 
和 语义 趋 于 和 其 他 的 设施 (如 malloc ()) 尽 可 能 地 类 似 。Linda 程序 设计 语言 扩展 是 另 一 种 形式 的 接口 。 











TB: Linda 程序 设计 语言 

Linda 编程 语言 [Carriero and Gelernter, 1986] 表现 了 与 POSIX 接口 风格 相对 立 的 接口 ， 它 明确 地 通 
过 对 传统 编程 模型 的 扩展 来 使 用 远程 存储 器 。 在 Linda 语言 中 ， 数 据 作 为 元 组 (tuple) 被 远程 存储 ， 并 通 
过 带 有 元 组 中 相应 域 值 的 关联 访问 键 来 进行 访问 ， 而 不 是 使 用 传统 的 读 和 写 来 操作 存储 器 。Linda 提供 了 
一 个 模型 ， 从 而 元 组 可 以 被 读 取 、 加 入 以 及 从 元 组 空间 移 走 数据 。 在 元 组 空间 中 的 信息 通过 移动 元 组 、 更 
新 它 及 替换 它 而 改变 。 

例如 ， 一 个 名 为 studentCount 的 整数 带 有 一 个 键 名 course， 该 整数 可 以 通过 下 面 的 通用 形式 的 代码 段 
被 更 新 : 


tmp = read (course = 3753); 
++ tmp. studentCount; 
write (tmp, course = 3753); 
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虽然 这 种 方法 可 能 看 起 来 有 些 笨 抽 〈 对 比 一 个 赋值 语句 而 言 )， 但 它 提供 了 一 种 应 用 编程 接口 ， 该 接口 可 
以 很 容易 地 被 编译 成 基于 网 络 的 存储 访问 。 

另外 ， 通 过 管理 元 组 的 更 新 可 以 等 价 地 进行 对 数据 的 读 写 操作 。 这 些 存储 接口 扩展 是 独立 于 编程 语言 
的 ， 如 同文 件 接口 独立 于 语言 一 样 。 然 而 ，Carriero 和 Gelernter 认为 Linda 定义 了 一 种 编程 语言 而 不 是 一 
个 操作 系统 。 实 际 上 ，Linda 可 以 被 用 于 将 大 量 类 型 串 行 编程 语言 扩展 成 并 行 编程 语言 。 
E 





位 置 透 明 性 以 及 名 字 管 理 

远程 存储 器 可 以 放置 在 网 络 中 的 任意 位 置 ， 因 而 系统 中 的 某 些 部 分 必须 能 在 一 个 地 址 空间 中 定位 远程 
存储 器 。 真 正 的 位 置 透明 性 暗示 着 有 一 个 地 址 空间 ， 完 全 隐藏 了 任何 地 址 的 物理 位 置 。 进 程 通过 使 用 来 自 
它 本 地 地 址 空间 的 名 字 来 访问 远程 存储 器 ， 该 名 字 映 射 到 一 个 全 局 地 址 。 全 局 地 址 是 静态 或 动态 地 被 绑 定 
到 正确 的 网 络 地 址 上 的 。 

例如 ， 如 果 远 程 存储 器 由 传输 层 地 址 < net,， host, port> 定 位 ， 那 么 进程 必须 在 给 定 的 服务 器 地 址 处 
能 够 访问 存储 块 和 偏 移 量 。 假 定 服务 器 管理 多 个 存储 块 ， 在 本 地 名 字 空间 中 的 一 个 简单 地 址 相对 应 的 地 址 
形式 为 : 

< (nett, host#, port#), block, offset > 


在 Linda 方法 中 ， 通 过 使 用 对 共享 全 局 元 组 空间 相关 联 的 访问 操作 来 处 理 这 个 问题 。 一 个 程序 可 以 写 
一 个 元 组 到 全 局 元 组 空间 中 ， 而 无 需 知道 有 关 存储 器 的 网 络 位 置 的 任何 信息 。 

系统 能 够 被 设计 成 在 编译 时 、 加 载 时 或 运行 时 刻 进行 地 址 绑 定 。 编 译 时 绑 定 主要 要 求 位 置 是 完全 可 见 
的 并 “连接 ”到 软件 中 ， 很 少 有 系统 采用 这 种 方法 。 通 过 加 载 进行 绑 定 时 ， 网 络 位 置 通过 链接 编辑 器 在 处 
理 外 部 访问 时 被 定义 。 在 这 种 方法 中 ， 用 户 要 在 程序 被 链接 和 加 载 时 提供 远程 存储 器 的 位 置 ， 由 于 运行 时 
刻 进行 绑 定 更 为 灵活 ， 所 以 也 没有 系统 采用 这 种 方法 。 通 过 运行 时 刻 进行 绑 定时 ， 程 序 被 编译 时 要 求 带 有 
足够 的 信息 ， 通 过 这 些 信 息 ， 在 存储 器 第 一 次 被 访问 时 使 用 一 个 名 字 服 务 器 来 绑 定 远程 存储 器 位 置 ， 在 随 
后 的 访问 中 就 重用 第 一 次 访问 时 的 绑 定 结果 。 运 行 时 刻 绑 定 要 求 系统 提供 一 种 机 制 ， 等 价 于 在 第 12 章 中 
所 讨论 的 用 于 将 一 个 段 名 映射 到 一 个 段 号 的 机 制 。 

因为 共享 存储 器 的 实现 是 显 式 的 ， 将 特殊 的 语义 应 用 到 共享 存储 器 中 存储 的 数据 是 可 能 的 。 通 过 明确 
不 保证 存储 在 共享 存储 器 中 的 数据 是 一 致 的 ， 数 据 一 致 性 可 以 “忽略 "。 那 么 一 致 性 就 变 成 了 程序 员 的 责 
任 而 不 是 系统 的 。 程 序 员 在 需要 的 地 方 必须 增加 一 种 同步 机 制 。Lamport Æ [Lamport, 1979] 中 描述 了 这 
些 可 选 的 存储 一 致 性 模型 如 何 能 够 被 用 于 分 布 式 环境 中 。 

引入 满足 特殊 应 用 领域 需要 的 新 的 抽象 数据 类 型 语义 也 是 可 行 的 。 例 如 ， 计 算 环境 可 以 提供 一 种 专门 
化 的 机 制 ， 用 于 带 有 一 个 生产 者 和 N 个 不 同 的 消费 者 的 计算 模型 中 。 生 产 者 将 信息 写 到 共享 存储 器 中 ， 
并 且 六 个 拷贝 必须 被 消费 ， 因 而 引起 数据 逻辑 上 从 存储 器 中 被 移出 。 

远程 存储 器 小 结 

因为 远程 存储 器 一 般 是 由 显 式 的 程序 设计 指令 手工 定义 ， 所 以 通常 由 程序 员 而 不 是 由 系统 来 显 式 定义 
单元 的 大 小 。 例 如 ， 在 Linda 中 共享 单元 的 定义 为 元 组 。 在 POSIX 共享 存储 器 中 ， 根 据 建立 块 的 命令 ， 块 
的 尺寸 是 可 变 的 。 

一 般 对 远程 存储 器 系统 的 批评 主要 集中 在 接口 的 透明 这 一 环节 上 。 存 储 器 的 分 布 是 具体 的 ， 假 定 程序 
员 在 调整 访问 时 有 最 大 的 灵活 性 。 然 而 ， 远 程 存储 器 必须 和 本 地 存储 器 区 别 对 待 。 而 分 布 式 共享 存储 器 使 
用 虚拟 存储 接口 来 解决 这 个 问题 ， 它 没有 特殊 的 语法 并 具有 很 少 特定 的 语义 。 


17.2.2 分 布 式 共享 存储 器 


共享 远程 存储 器 有 额外 的 抽象 特征 ， 这 是 因为 尽管 它 物理 上 位 于 一 个 远程 机 器 并 且 使 用 网 络 协议 访 
问 ,但 它 好 像 一 个 本 地 存储 器 一 样 被 对 待 。 虚 拟 存 储 器 结合 了 它 自己 的 存储 映射 机 制作 为 其 操作 的 内 在 成 
分 ， 这 种 机 制 的 技术 可 以 用 来 实现 网 络 存储 器 。 

虚拟 存储 器 访问 与 物理 存储 器 访问 不 同 ， 因 为 每 个 虚拟 地 址 在 被 访问 之 前 ， 都 被 映射 到 一 个 物理 存储 
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模块 中 的 一 个 物理 地 址 上 。 在 分 布 式 虚 拟 存储 器 中 ， 分 布 式 虚 拟 地 址 被 映射 到 一 个 共享 的 虚拟 地 址 空间 。 
由 共享 的 单元 地 址 标识 目标 存储 位 置 一 如 果 目 标 存储 位 于 本 地 机 器 的 主 存 中 ， 或 者 它 的 位 置 在 一 个 如 图 
17-6 所 示 的 全 局 辅 存 中 。 





一 ~， 虚 地 址 映射 
:都 ， 页 面 加 载 


图 17-6 ”分布 式 共享 存储 器 
È: 分 布 式 共 享 存储 器 利用 了 虚拟 地 址 绑 定 ， 使 得 有 部 分 虚拟 地 址 可 以 映射 到 网 络 位 置 而 不 是 本 地 辅 存 位 置 。 
如 果 虚 拟 存储 系统 确定 了 来 自 网 络 上 的 信息 没有 被 加 载 ， 它 就 从 远程 页 服务 器 上 得 到 未 加 载 的 页 ， 而 不 是 
从 本 地 磁盘 上 加 载 。 


当 进 程 地 址 空间 中 私有 部 分 的 页 被 加 载 时 ， 它 从 进程 的 本 地 辅 存 映 像 中 获得 。 当 映射 到 虚拟 地 址 空间 
中 共享 部 分 的 页 被 加 载 时 ， 它 就 从 一 个 可 以 被 多 个 进程 所 访问 的 共享 的 、 全 局 的 辅 存 中 获得 。 图 17-6 中 
表现 了 驻 留 在 一 个 不 同 机 器 中 共享 的 、 全 局 的 辅 存 。 然 而 ， 重 要 的 是 通过 客户 机 器 的 虚 存 实现 及 服务 器 
(在 本 地 机 器 中 或 是 在 一 个 远程 机 器 中 ) 的 协同 工作 组 件 进程 访问 共享 页 。 

从 程序 员 的 角度 来 看 ， 分 布 式 共享 存储 器 是 很 有 吸引 力 的 ， 可 以 使 用 如 同 对 本 地 虚拟 存储 器 _ 样 的 广 
法 来 分 配 和 访问 它 。 从 存储 管理 者 的 角度 来 看 ， 构 造 虚拟 地 址 空间 的 机 制 需要 处 理 通常 的 网 络 命名 和 透明 
性 问题 。 

全 局 辅 存 服务 器 必须 向 一 个 适当 的 名 字 服 务 器 注册 它 的 服务 ， 因 而 客户 可 以 在 运行 时 绑 定 服务 器 。 有 
几 种 方式 来 激活 服务 器 名 字 的 绑 定 ， 对 程序 员 而 言 最 简单 的 方式 是 调用 一 个 初始 化 例 程 ， 指 明 相 应 页 服务 
器 的 键 名 。 初 始 化 过 程 查找 页 服务 器 的 传输 层 地 址 <net，host，port > ， 并 与 它 建立 连接 ， 然 后 允许 进程 
开始 执行 。 当 本 地 存储 管理 器 检测 到 一 个 缺 页 错误 时 ， 缺 页 处 理 程序 确定 页 在 分 布 式 存储 器 中 还 是 在 本 地 
虚拟 存储 器 中 。 如 果 它 是 本 地 的 ， 那 么 就 如 同 第 12 章 中 所 描述 的 一 样 处 理 缺 页 错误 ; 如 果 它 是 分 布 式 的 ， 
缺 页 错误 处 理 程序 就 使 用 到 页 服务 器 的 连接 来 获得 所 缺 的 页 ， 并 把 它 放 人 本 地 主 存 中 。 

那么 在 本 地 主 存 中 的 不 同 拷贝 是 如 何 与 全 局 页 服务 器 中 的 页 映像 保持 一 致 性 的 呢 ? 解决 这 个 问题 的 方 
法 有 集中 式 和 分 布 式 的 算法 。 一 个 页 高 速 缓存 一 致 性 解决 方案 必须 要 考虑 采用 页 同步 (page synchroniza- 
tion) 和 页 所 有 权 (page ownership) 策略 。 页 同步 使 用 一 种 页 无 效 的 方法 来 保证 当 一 个 进程 写 一 个 高 速 组 
存 页 时 ,在 所 有 其 他 使 用 该 页 拷 由 的 处 理 机 之 间 维 持 一致 性 。 每 个 可 改写 的 页 都 有 一 个 “所 有 者 ”处 理 
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“所 有 者 ”知道 最 后 写 该 页 的 进程 标识 。 一 个 写 例 外 (write fault) 引起 所 有 该 页 的 高 速 缓存 拷贝 都 变 
ete 引发 写 例外 的 处 理 机 将 它 的 页 拷贝 的 访问 方式 改 为 写 ， 现 在 该 处 理 机 就 “拥有 ”了 该 页 并 继续 写 
操作 。 

利用 一 个 集中 式 或 分 布 式 的 存储 管理 器 ， 可 以 实现 动态 的 页 所 有 权 。 集 中 式 的 存储 管理 器 方法 依赖 于 
网 络 上 一 个 特殊 的 处 理 机 中 有 存储 管理 器 的 单个 拷贝 ， 存 储 管理 器 保存 有 全 局 信息 ， 如 当前 页 的 访问 权 、 
所 有 者 以 及 网 络 上 存在 的 锁 等 。 如 同 其 他 的 集中 式 方法 一 样 ， 这 种 管理 器 实现 相对 简单 ， 然 而 ， 存 储 管理 
器 往往 是 一 个 瓶颈 及 网 络 上 的 一 个 关键 点 。 

分 布 式 存储 管理 器 采用 一 种 策略 ， 通过 它 使 共享 页 集合 静态 地 被 划分 并 分 配 到 不 同 的 存储 管理 器 中 。 
客户 机 负责 使 用 正确 的 服务 器 来 满足 调 人 和 重 调 页 的 请 求 。 在 另 一 种 替代 方法 中 ,客户 可 以 使 用 一 种 广播 
协议 来 确定 所 有 者 ， 而 不 必 知 道 服务 器 的 位 置 。 

Li 和 Hudak 对 分 布 式 共 享 主 存 所 做 的 工作 极 大 地 促进 了 替代 设计 的 发 展 。 在 20 世纪 90 年 代 期 间 ， 研 
究 人 员 开 发 了 很 多 方法 ， 可 通过 松弛 一 致 性 模型 来 实现 分 布 式 共享 主 存 ， 这 可 以 极 大 地 提高 效率 。 其 基本 
思想 就 是 对 于 小 的 窗口 允许 是 不 一 致 的 一 一 意味 着 程序 员 需 要 在 编写 代码 时 进行 考虑 ， 这 有 可 能 建立 具有 
较 高 性 能 的 分 布 式 共 享 存 储 器 。 如 果 不 依 赖 这 些 弱 一 致 性 模型 ， 许 多 人 认为 分 布 式 共享 存 储 器 是 不 可 行 
的 。Adve 和 Gharachorloo [1996] 写 了 一 篇 描述 一 致 性 模型 和 分 布 式 共 享 存储 器 实现 最 新 技术 的 论文 。 近 
Æ, Steinke [2001] 研究 了 在 已 知 的 一 致 性 模型 间 的 关系 ， 对 Adve 和 Gharachorloo 的 观点 进行 了 更 新 ， 并 
提供 了 另 一 种 可 供 选择 的 方式 来 思考 一 致 性 模型 。 


17.3 ”远程 过 程 调用 


几 十 年 来 ， 过 程 已 经 被 广泛 应 用 于 顺序 程序 的 模块 化 计算 。 今 天 ， 专 业 程序 员 被 训练 成 使 用 公共 的 过 
程 接口 背后 的 数据 和 函数 封装 实现 模块 来 进行 软件 设计 。 分 布 式 计算 又 产生 了 新 的 复杂 性 ， 模 块 化 在 顺序 
编程 中 隐藏 了 具体 实现 。 在 分 布 式 程序 中 ， 还 要 能 够 位 置 透明 和 进行 调度 。 这 表明 程序 员 需 要 了 解 一 个 新 
的 环境 ， 在 其 中 充分 利用 分 布 式 硬件 的 优势 来 构造 应 用 程序 。 然 而 ,没有 专门 的 分 布 式 编程 环境 作为 实际 
的 “标准 ”"， 这 部 分 在 于 最 优 计算 划分 方法 的 不 同 ， 部 分 在 于 缺乏 一 种 标准 分 布 式 计算 环境 的 出 现 。 今 天 ， 
包括 Java 模型 、 微 软 的 .NET、OSF DCE 以 及 面向 对 象 的 CORBA 等 ,一 系列 的 实现 方法 推动 着 不 同 的 分 
布 式 环境 的 发 展 。 远程 过 程 调用 (RPC) 范例 是 利用 网 络 对 顺序 编程 环境 的 主要 扩展 ， RPC 在 Java、 
.NET、DCE 以 及 CORBA 中 都 有 类 似 实现 。 


17.3.1 RPC 如 何 工 作 


RPC 是 作为 一 个 网 络 协议 来 实现 的 ， 它 允许 一 个 进程 调用 加 载 到 另 一 个 不 同 机 器 中 的 一 个 过 程 ， 并 且 
传递 参数 的 拷贝 给 它 来 用 于 计算 。 因 此 ，RPC 是 在 与 调用 者 不 同 的 地 址 空间 中 执行 的 。RPC 是 进程 间 通 
信 的 一 个 专门 的 模式 : 最 初 的 程序 完成 一 个 发 送 操作 后 ， 随 即 进行 一 个 阻塞 读 操 作 ; 接收 程序 调用 一 个 阻 
塞 读 直到 它 收 到 一 个 “调用 者 ”进程 所 发 送 的 消息 ， 然 后 它 提供 服务 并 将 结果 返回 最 初 的 进程 。 从 调用 者 
的 角度 看 ， 该 框架 所 产生 的 行为 如 同 从 一 个 程序 到 另 一 个 程序 间 的 过 程 调用 一 样 。 

在 图 17-7 中 概括 了 这 种 控制 流 同 步 的 模型 。 在 传统 的 过 程 调用 中 ， 主 程序 将 参数 压 人 栈 内 并 且 调 用 
过 程 ， 这 会 停止 主 程序 的 执行 并 开始 执行 相应 的 过 程 。 首 先 ， 过 程 从 调用 者 中 的 栈 中 获得 参数 ， 然 后 执行 
过 程 函 数 ， 将 所 有 的 返回 参数 压 人 栈 ， 最 后 返回 主 程序 。 

RPC 跨越 属于 两 个 不 同 进 程 的 地 址 空间 ， 如 图 17-7b 中 的 theClient 和 rpcServer 进程 。theclient 进 
程 在 它 自己 的 地 址 空间 中 执行 主 程序 ，rpcServer 进程 在 它 的 地 址 空间 中 执行 远程 过 程 。 通 过 让 theClient 
将 参数 打包 到 一 个 消息 ， 并 附加 被 调用 过 程 的 名 字 到 消息 中 来 进行 调用 ， 然 后 发 送 消息 到 rpcserver 中 。 
在 theClient 发 送 调用 消息 后 ， 它 会 阻塞 服务 来 等 待 RPC 的 结果 ， 因 而 模拟 了 串 行 调用 的 控制 流 。 因 此 ， 
在 被 调用 过 程 在 传统 的 (图 17-7a) 和 RPC 模型 (图 17-7b) 中 执行 时 ， 调 用 者 都 是 空闲 的 。 

当 rpcServer 进程 运行 时 ， 它 完成 了 一 个 阻塞 的 接收 操作 。 当 收 到 调用 消息 时 ， 它 会 解 包 消息 ， 这 类 
似 于 在 通常 情形 中 从 栈 中 接收 到 参数 。 然 后 确定 过 程 的 名 字 并 调用 它 。 一 旦 过 程 结 束 执 行 ， 它 就 返回 到 
rpcServer 的 主 程序 中 。 主 程序 会 打包 返回 结果 并 且 通 知 theClient 调用 结束 。 
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int main(...) { 


func(al, a2, ..., an); 


void func(pl, p2, ..., pn) { 


} 







pop a2 
pop al 
(perform function) 
return 
a) 


theClient 










int main(...) 


{ 







func(al, a2, ..., an); 


rpcServer 


.+ pn){ 





void func(pl, p2, .. 





// Initialize the server 
while(TRUE) { 
msg = receive(anyClient); 
unpack(msg, tl); 
unpack(msg, t2); 


pack(al, msg); unpack(msg, tn); 
pack(a2, msg); fune(tl, t2, ..., tn); 
eee pack(al, rtnMsg); 
pack(an, msg); pack(a2, rtnMsg); 
send(rpcServer, msg); ... 
// waiting ... pack(an, rtnMsg); 
result = receive(rpceServer); ~~ send (rpeServer, rtnMsg); 
} 
b) 


图 17-7 远程 过 程 调用 的 同步 
注 : 图 中 的 a) 部 分 描述 了 传统 的 过 程 调用 ，b) 部 分 描述 了 远程 过 程 调用 。RPC 机 制 调用 在 服务 器 上 执行 的 过 
程 ， 返 回 结果 给 调用 进程 。 这 可 以 通过 发 送 调用 和 参数 给 服务 器 并 将 结果 返回 客户 来 实现 。 


RPC 机 制 使 丙 个 进程 能 够 通过 使 用 传统 过 程 调用 中 的 控制 流 模型 来 进行 交互 。RPC 功能 允许 程序 员 
编写 调用 和 被 调用 的 应 用 过 程 ， 在 一 个 进程 中 执行 调用 过 程 ， 被 调用 过 程 在 另 一 个 机 器 的 一 个 远程 进程 中 
执行 ， 程 序 员 无 需 知道 消息 或 网 络 的 具体 情况 。 从 图 17-7 中 可 以 看 出 ，RPC 模型 是 一 个 消息 sends 和 re- 
ceives 的 结构 集 ， 因 而 RPC 通常 被 认为 是 一 个 高 层 的 网 络 协议 。 
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17.3.2 实现 RPC 


在 RPC 实 现 中 有 几 个 需要 关心 的 问题 : 
E RPC 的 语法 应 该 与 高 级 程序 设计 语言 中 本 地 过 程 调用 的 语法 外 观 相同 。 
时 虽然 要 求 远程 过 程 调 用 与 本 地 过 程 调用 的 语义 恰好 相同 是 有 些 困难 ， 但 它们 应 该 尽 可 能 地 类 似 。 在 
RPC 中 实现 与 本 地 调用 语义 相同 比较 困难 的 一 个 例子 ， 是 在 处 理 传 指针 参数 时 。 传 指针 参数 允许 过 
程 可 以 改变 调用 者 程序 中 的 变量 。 在 RPC 的 情形 中 ， 它 将 通过 rpcServer 生成 一 个 send 给 一 个 传 
指针 的 参数 赋值 ， 并 且 由 theClient 进行 receive， 从 而 导致 theClient 中 的 一 个 变量 在 它 的 地 址 空 
间 中 被 改变 。 大 多 数 的 RPC 实现 都 不 支持 传 指针 方式 进行 的 调用 。 
m RPC 的 接收 者 应 该 在 一 个 类 似 于 进行 调用 的 环境 中 执行 。 在 传统 的 环境 中 ， 过 程 可 以 访问 并 改变 全 
局 变量 。 为 提供 相同 的 语义 行为 ， 这 种 改变 将 要 再 次 请 求 在 theClient 和 rpcServer 之 间 进 行 专门 
的 通信 来 实现 。 通 常情 况 下 ， 在 被 调用 过 程 的 地 址 空间 中 创建 调用 者 的 动态 栈 是 不 可 能 的 。 
通用 的 组 织 结构 
RPC 实现 可 以 采用 图 17-8 所 示 的 通用 形式 。 客 户 机 执行 theClient 进程 ， 其 中 包含 有 客户 端 应 用 程序 
代码 、 客 户 存 根 (client stub) 以 及 传输 机 制 。 服 务 器 通过 传输 机 制 实现 rpcServer 进程 、 服 务 器 存根 
(server stub) 主 程序 以 及 远程 过 程 的 服务 器 实现 。 窗 户 存根 把 本 地 过 程 调用 翻译 成 RPC 协议 中 客户 端的 活 
动 ， 服 务 器 存根 实现 RPC 协议 的 服务 器 端 部 分 。 


theClient . rpcServer 


int main(...) 


register (remoteF); 


localF(...); © while(1l) { 

receive(msg); 

unpack (msg); 
remoteF(...); 
pack(rtnMsg); 
send(theClient, rtnMsg); 
localF(...) 


return; 


remoteF(...) 


} eee 
return; 


} 











lookup(remoteF); 
pack(...); 
send(rpcServer, msg); 名 字 服 务 器 
receive(...): | | 

unpack(...); lookup(...) { 
return; eee 


} 





register(...) { 


— 过 程 调用 wee 
消息 传递 } 





图 17-8 远程 过 程 调用 的 实现 
注 : RPC 实现 使 用 了 客户 存根 和 服务 器 存根 来 处 理 调用 链接 。 客 户 存根 定位 服务 器 ， 并 对 调用 进行 编码 ， 然 后 
等 待 从 服务 器 来 的 结果 。 服 务 器 存根 注册 它 的 远程 调用 过 程 ， 然 后 等 候 RPC。 当 一 个 RPC 到 达 时 ， 服 务 器 
存根 解码 调用 请 求 ， 执 行 它 ， 对 结果 编码 并 将 它们 返回 给 等 候 的 客户 存根 。 


如 图 所 示 ，theClient 进程 中 的 RPC 激活 客户 存根 代码 。 客 户 存根 通过 使 用 名 字 服 务 器 定位 执行 rpe- 
Server 进程 的 机 器 。 在 名 字 服 务 器 响应 查询 语法 之 前 ，rpcServer 进程 必须 事先 已 经 注册 了 远程 过 程 所 用 
的 全 局 名 字 ， 在 示例 中 为 remoteF。 查 询 只 需要 在 第 一 次 调用 时 进行 ， 之 后 客户 与 服务 器 就 将 建立 起 连接 ， 





DRA 441 





在 随后 的 调用 中 使 用 该 存在 的 连接 。 接 下 来 ， 客 户 存根 将 参数 打包 在 一 个 消息 中 并 传送 到 rpcServer 进程 
中 的 服务 器 存根 。 由 于 服务 器 存根 可 能 服务 几 个 不 同 的 远程 过 程 ， 所 以 它 使 用 到 来 的 消息 来 选择 一 个 远程 
过 程 。 服 务 器 存根 完成 调用 并 将 结果 参数 打包 返回 给 theClient 进程 ， 同 时 theClient 进程 将 一 直 被 阻塞 
等 待 调用 的 结束 。 当 theClient 进程 得 到 返回 的 消息 时 ， 它 解 包 返 回 参数 并 传递 到 主 程序 中 。 

按照 本 地 调用 对 远程 调用 建 模 

什么 样 的 机 制 可 以 用 来 区 分 本 地 过 程 和 远程 过 程 呢 ? 远 程 过 程 服 务 器 怎样 以 及 什么 时 候 会 被 调用 者 知 
道 呢 ? 必须 有 可 能 编写 客户 端 软件 ， 使 其 调用 RPC 有 如 同 本 地 过 程 调用 一 样 的 语法 。 如 果 是 一 个 远程 过 
E, OBA RPC 机 制 可 能 强制 程序 员 在 编译 时 、 链 接 编辑 时 或 者 运行 时 刻 来 区 分 是 RPC 还 是 本 地 过 程 调用 。 
如 果 要 在 编译 时 进行 这 种 区 分 ， 程 序 员 将 需要 使 用 一 个 与 本 地 调用 所 不 同 的 RPC 接口 。 例 如 ， 一 个 远程 
过 程 调用 可 能 采用 的 形式 为 : 


callRemote (remoteF, al, a2, +, aN, +); 
其 中 callRemote 是 一 个 被 链接 到 调用 程序 地 址 空间 的 本 地 过 程 ， 参数 规定 了 远程 过 程 的 名 字 renter, 同 
样 规定 了 过 程 调用 的 参数 。 


然而 ， 假 定 系统 容许 本 地 和 远程 过 程 的 区 分 推迟 到 链接 时 ， 则 程序 员 采 用 相同 的 语法 进行 本 地 和 远程 
调用 。 编 译 器 将 不 区 分 它们 并 将 自动 地 为 远程 过 程 调用 客户 存根 ( 见 图 17-8) ， 链 接 编辑 器 将 被 要 求解 决 
所 有 的 外 部 访问 。 为 了 解决 外 部 访问 ， 链 接 编 辑 器 将 需要 类 似 于 链接 信息 库 中 的 信息 来 说 明 进程 是 本 地 的 
还 是 远程 的 。 链 接 编辑 器 所 需要 的 最 少 信息 是 标示 那些 对 远程 过 程 的 符号 访问 。 客 户 存根 将 包含 在 运行 时 
绑 定 到 远程 服务 器 上 的 代码 。 这 是 当代 商业 系统 中 的 主流 方法 。 

远程 过 程 的 运行 时 刻 说 明 是 最 一 般 的 方法 ， 并 且 请 求 与 动态 段 线 定 所 用 技术 相同 的 动态 绑 定 的 支持 
( 见 12.6 节 )。 编 译 器 或 者 链接 编辑 器 将 不 能 解决 外 部 访问 问题 ， 因 而 外 部 访问 被 假定 在 运行 时 刻 绑 定 。 
这 种 延迟 绑 定 要 求 静态 绑 定 机 制 在 编译 的 代码 中 保留 足够 的 信息 ， 使 运行 系统 能 够 解决 外 部 访问 。 

定位 远程 过 程 

独立 于 识别 远程 过 程 的 方法 ， 调 用 例 程 必须 能 够 定位 来 执行 远程 过 程 的 服务 器 。 同 样 ， 该 信息 可 以 在 
编译 时 、 链 接 编 辑 时 或 者 运行 时 刻 来 说 明 。 不 管 使 用 什么 方法 ， 调 用 例 程 必须 在 调用 进程 的 地 址 空间 中 生 
成 一 个 地 址 ， 映 射 到 执行 远程 过 程 的 地 址 (net #, host#, RPCport#) 上 。 如 果 定 位 在 编译 时 确定 ， 那 
么 前 面 所 示 的 RPC 将 有 一 个 附加 的 参数 来 说 明 远 程 过 程 服务 器 的 位 置 ， 如 下 所 示 : 


callRemote (remoteF, al, a2, =, aN, =+, internetLocation); 


其 中 internetLocation 是 如 同 (net#, host #, RPC-port#) 一 样 的 一 个 名 字 ， 说 明 远 程 过 程 的 服务 器 进 
程 在 其 上 执行 。 

从 链接 时 定位 可 看 出 ， 远 程 过 程 标识 号 只 有 在 编译 时 或 链接 时 被 指定 才 是 有 意义 的 。 同 样 ， 这 种 形式 
的 静态 绑 定 在 概念 上 与 编译 时 绑 定 是 一 样 的 。 在 链接 时 说 明 情 形 下 ， 远 程 过 程 服务 器 是 通过 外 部 符号 定义 
信息 来 指定 的 ， 对 程序 执行 而 言 它 是 静态 的 。 

远程 过 程 网 络 位 置 的 动态 绑 定 是 最 有 用 且 应 用 最 广泛 的 方法 。 如 图 17-8 所 未 ， 客 户 存根 是 中 间 媒 介 ， 
并 且 是 被 静态 地 链接 到 调用 程序 的 。 然 而 ， 如 在 前 面 章节 中 所 提 到 的 ， 客 户 存根 使 用 运行 时 刻 信息 来 查找 
RPC 服务 器 的 位 置 ， 然 后 与 它 建立 一 个 连接 。 当 RPC 第 一 次 执行 时 ， 客 户 存根 要 求 有 命名 机 制 来 确定 远 
程 过 程 服务 器 位 于 何 处 。 在 随后 的 调用 中 ， 它 已 经 知道 了 服务 器 的 位 置 。 

在 动态 绑 定 中 ， 在 过 程 被 编译 时 ， 必 须 生成 一 个 远程 过 程 的 客户 存根 。 一 旦 调用 进程 已 经 确认 过 程 是 
一 个 远程 过 程 ， 它 将 它 自 己 绑 定 到 客户 存根 。 例 如 ， 客户 存根 可 以 很 容易 地 在 链接 时 〈 在 本 地 过 程 被 绑 定 
有 时) 被 静态 地 绑 定 到 调用 程序 中 ， 但 动态 地 确定 服务 器 位 置 。 

存根 的 生成 

如 何 自动 地 生成 客户 存根 ”当代 编程 语言 中 采用 了 定义 所 有 过 程 调用 序列 的 过 程 接口 模块 。ANSI C 
或 C++ 中 的 函数 原型 就 是 一 个 过 程 接口 说 明 的 例子 。 实 现 一 个 过 程 的 模块 称 之 为 导出 (export)， 而 使 用 
过 程 的 模块 称 之 为 导入 (import)。 接 口 模块 提供 了 足够 的 信息 来 生成 客户 存根 ， 因 为 它 标识 了 符号 过 程 名 
字 和 参数 。 一 个 存根 编译 器 可 能 使 用 接口 模块 来 生成 对 本 地 传输 机 制 的 调用 ， 得 以 实现 调用 与 返回 的 信息 
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交换 ， 及 将 参数 打包 到 相应 的 网 络 消息 中 。 

在 运行 时 刻 ， 客 户 存根 将 使 用 一 个 名 字 服 务 器 来 定位 服务 器 ， 然 后 随 着 发 给 服务 器 的 请 求 与 服务 器 交 
换 消 息 。 当 远程 过 程 被 调用 且 服 务 器 的 位 置 已 经 被 绑 定 到 地 址 空间 中 时 ， 客 户 存根 就 可 以 使 用 消息 开始 模 
仿 本 地 调用 的 调用 和 返回 ， 它 打包 参数 并 发 送 到 服务 器 存根 。 客 卢 存 根 以 及 客户 进程 因此 会 在 重新 运行 之 
前 等 待 RPC 的 结束 。 

网 络 支持 . 

传输 机 制 支持 网 络 消息 传递 。 虽 然 要 求 可 靠 性 ， 但 实际 上 往往 使 用 专门 用 于 RPC 协议 的 数据 报 来 实 
现 。 操 作 系统 设计 者 证 明了 这 种 方法 是 适当 的 ， 注 意 到 RPC 协议 并 不 要 求 具 有 像 TCP 所 提供 的 虚 电 路 一 
样 的 全 部 特征 。 当 发 送 者 和 接收 者 作为 已 知行 为 的 客户 存根 和 服务 器 存根 时 ， 一 个 专用 的 协议 是 相对 容易 
构造 的 。 

在 服务 器 端 ， 每 个 导出 过 程 的 模块 必须 准备 接受 远程 调用 。 这 要 求 服务 器 包含 一 个 代理 调用 进程 一 一 
服务 器 存根 ， 接 受 来 自 客户 存根 的 调用 请 求 并 进行 本 地 调用 。 服 务 器 存根 必须 通过 使 用 接口 模块 ， 及 在 其 
地 址 空间 中 实现 的 过 程 导出 指令 来 生成 。 通 常情 况 下 ， 服 务 器 向 名 字 服 务 器 注册 每 个 过 程 ， 从 而 使 客户 存 
根 能 够 在 调用 时 定位 过 程 。 注 册 包 括 将 名 字 增 加 到 名 字 服 务 器 中 ， 并 且 将 内 部 标识 号 映射 到 对 应 过 程 。 

在 调用 时 刻 ， 客 户 存根 将 调用 参数 打包 到 一 个 消息 中 ， 并 发 送 到 由 名 字 服 务 器 所 指定 的 网 络 端口 。 服 
务 器 中 的 传输 部 分 然后 将 消息 传送 到 服务 器 存根 ， 由 服务 器 存根 解 包 参 数 ， 识 别 出 被 调用 的 过 程 并 调用 
它 。 当 过 程 返回 时 ， 服 务 器 存根 将 结果 打包 并 返回 给 客户 存根 ， 由 客户 存根 解 包 返回 的 结果 并 返回 到 调 
用 者 。 

当 通过 传 值 方法 进行 参数 传递 时 ， 使 用 这 种 机 制 很 容易 进行 处 理 ， 而 通过 传 名 或 传 指针 方式 传递 参数 
则 难以 实现 ， 因 为 这 些 参 数 传递 方法 要 求 客户 和 服务 器 存根 要 能 计算 传 给 服务 器 的 参数 。 对 于 这 后 一 个 问 
题 ， 不 同 的 远程 过 程 包 使 用 了 不 同 的 方法 ， 然 而 ， 每 一 种 方法 都 将 增加 在 客户 存根 与 服务 器 存根 之 间 进 行 
网 络 传输 的 负担 ， 最 广泛 使 用 的 RPC 机 制 被 简化 成 不 支持 按 名 或 指针 传递 参数 。 

RPC 对 于 跨越 不 同 机 器 间 的 分 布 式 处 理 很 有 用 ,但 RPC 机 制 并 没有 鼓励 并 行 计算 。 当 一 个 调用 者 激 
活 一 个 远程 过 程 时 ， 在 该 过 程 的 执行 期 间 调用 者 会 被 阻塞 。 所 以 当 考虑 一 个 RPC 实现 时 ， 性 能 总 是 一 个 
主要 问题 。 虽 然 RPC 提供 了 延迟 绑 定 ， 但 它 的 性 能 开销 必须 尽 可 能 小 。 即 使 这 样 ， 在 当代 分 布 式 应 用 中 
远程 过 程 还 是 被 广泛 采用 ， 因 为 它们 在 实现 传统 编程 模型 的 同时 并 不 需要 了 解 分 布 机 制 和 策略 。 


17.4 远程 对 象 


近年 来 ， 面 向 对 象 (OO) 程序 设计 变 成 了 一 种 流行 的 程序 设计 模型 。 在 OO 模型 中 ， 数 据 被 抽象 数据 
类 型 (类 ) 定义 及 管理 ， 抽 象 数据 类 型 还 提供 了 一 组 公共 方法 。 可 以 通过 发 送 合适 的 消息 给 对 象 来 调用 对 
象 的 方法 。OO 程序 员 已 经 接受 了 处 理 对 象 信息 的 新 的 接口 范式 ， 并 习惯 于 根据 消息 (C++ 中 的 成 员 函 数 
调用 ) 来 操纵 信息 。 这 个 模型 的 缺点 是 ， 一 些 面向 对 象 语言 的 语义 不 利于 分 布 式 实现 ， 它 依赖 于 单 地 址 空 “ 
间 内 的 顺序 操作 。 例 如 ， 在 定义 参数 如 何 被 传递 给 成 员 函 数 时 ，C++ 语义 严重 依赖 于 单线 程 、 单 地 址 空 
间 行 为 。 

不 过 ， 软 件 系统 已 经 建立 了 扩展 的 语义 来 定义 面向 对 象 语言 ， 从 而 使 它们 可 以 比 以 前 更 适用 于 分 布 式 
计算 (早期 的 例子 可 参见 Bennett [1987])。 在 这 些 系统 中 ， 每 个 对 象 都 维持 有 自己 的 地 址 空间 ， 通 过 所 
有 对 象 的 联合 而 构成 计算 的 地 址 空间 ， 因 而 ， 对 象 名 作为 共享 名 字 空 间 的 可 见 名 字 。 假 定 可 以 在 网 络 上 管 
理 对 象 名 ， 那 么 对 象 模 型 就 是 一 种 通过 固有 的 分 布 式 存储 器 来 透明 地 表示 分 布 式 计 算 的 可 行 方法 。 现 代 面 
向 对 象 环境 (如 .NET) 特别 注意 分 离 地 址 空间 的 思想 ( 见 第 5 章 ，[ Nutt，2004])。 


17.4.1 Emerald 系统 


对 于 操作 系统 而 言 ， 对 象 是 难以 有 效 地 管理 的 ， 因 为 它们 可 以 小 如 一 个 整数 ， 或 者 大 如 一 个 位 图 映 
像 。 使 用 分 布 式 存储 器 的 困难 在 于 在 网 络 上 移动 对 象 ， 移 动 对 象 发 生 在 当 一 个 对 象 被 另 一 个 对 象 多 次 使 用 
时 ， 这 样 使 得 两 个 对 象 都 被 加 载 到 同一 机 器 中 以 提高 对 象 引 用 效率 。 所 以 在 实现 分 布 式 对 象 中 ， 对 象 的 移 
动 性 是 一 个 关键 问题 。 
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Emerald 是 分 布 式 对 象 系统 的 一 个 早期 例子 ， 它 结合 了 语言 和 操作 系统 的 支持 来 实现 对 象 移动 (参见 
Jul et al. [1988] )。 虽 然 Emerald 的 设计 者 承认 大 、 小 对 象 的 实现 方法 有 所 不 同 ， 但 他 们 认为 这 些 实现 差 
别 不 应 该 出 现在 对 象 接口 ( 见 图 17-9)。Emerald 为 本 地 和 远程 对 象 提供 了 单一 对 象 接口 ， 由 编译 器 来 对 这 
两 种 实现 加 以 区 别 ， 并 生成 允许 运行 时 刻 进行 大 对 象 迁移 的 代码 。Emerald 实现 把 全 局 对 象 从 本 地 对 象 中 
区 别 开 来 ,并且 生成 一 个 能 够 结合 一 个 全 局 名 的 对 象 控制 块 。 如 果 对 象 是 远程 的 ， 控 制 块 中 包含 有 足够 的 
信息 来 为 本 地 消息 转发 到 对 象 服务 。 由 于 对 象 迁移 是 动态 的 ， 控 制 块 中 也 必须 保存 有 访问 计数 ， 因 而 当 对 
象 被 释放 时 ， 控 制 块 空间 可 以 被 重新 回收 。 全 局 对 象 转发 的 地 址 可 能 存在 于 几 个 机 器 中 ， 这 取决 于 系统 跟 
踪 对 象 移动 的 能 力 。 





远程 对 象 接口 








e.g., Corba 
DCOM, SOAP, + 


b) 二 种 接口 


图 17-9 分 布 式 对 象 接口 
注 ; 分 布 式 对 象 接口 定义 了 软件 调用 远程 对 象 方法 的 方式 。 理 想 情况 下 ， 仅 有 一 个 对 象 接口 ， 如 a) 部 分 所 显示 
的 。 出 于 性 能 上 的 原因 ， 有 些 OO 接口 采取 了 两 个 接口 (部 分 b))， 一 个 针对 本 地 对 象 ， 另 一 个 针对 远程 
对 象 。 


17.4.2 CORBA 


CORBA 标准 大 约 在 1990 年 出 现 ， 它 是 描述 分 布 式 对 象 如 何 工作 的 第 一 个 广泛 认可 的 规范 。 公 共 对 象 
请 求 代 理 体系 结构 (Common Object Request Broker Architecture, CORBA) 由 对 象 管理 组 织 来 管理 ， 它 是 一 
个 非 僵 利 性 组 织 ， 目 的 在 于 规范 分 布 式 对 象 的 标准 。CORBA 规范 的 目标 就 是 定义 客户 软件 访问 远程 对 象 
的 体系 结构 ， 而 不 关心 它们 的 实现 细节 (如 用 来 定义 对 象 的 语言 )。 更 进一步 ， 对 象 定义 对 访问 CORBA 对 
象 的 软件 来 说 是 透明 的 。 

对 象 请 求 代理 (ORB) 是 使 得 远程 对 象 可 以 运行 的 底层 系统 〈 见 图 17-10) 。 它 负责 在 会 话 的 客户 和 对 
象 服务 器 端 实现 请 求 、 网 络 服务 和 请 求 发 送 服务 。ORB 提供 了 一 组 API ORB 接口 ， 客 户 和 对 象 服务 器 可 
用 它 来 实现 一 般 的 管理 功能 。 另 外 ，ORB 为 服务 器 中 的 每 个 对 象 提供 了 对 象 适 配器 。 对 象 适配器 负责 将 通 
用 的 ORB 式样 的 请 求 转换 为 对 象 实现 请 求 。 例 如 ，C++ 对 象 适 配器 将 CORBA 成 员 函 数 调用 转换 为 服务 
器 上 的 C++ 成 员 函 数 调用 。 

ORB 提供 了 可 被 客户 软件 使 用 的 接口 定义 语言 (IDL)。 当 在 服务 器 上 创建 一 个 对 象 时 ， 它 将 对 象 的 
接口 提供 给 ORB。ORB 使 用 接口 定义 语言 来 提供 一 个 具体 的 CORBA 接口 (通过 创建 可 被 链接 到 客户 软件 
的 存根 )。 通 过 匹配 的 IDL 框架 ， 程 序 员 定义 的 IDL 接口 的 细节 在 对 象 服务 器 端 是 可 用 的 。 当 客 户 希望 调 
用 CORBA 对 象 上 的 成 员 函 数 时 ， 会 调用 接口 定义 语言 存根 中 的 函数 。ORB 然后 : 

加 将 客户 请 求 转换 为 它 自己 的 格式 

里 定位 目标 对 象 服务 器 

B 传递 请 求 给 服务 器 
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对 象 实现 


图 17-10 CORBA F% 
注 : CORBA 定义 了 工业 界 的 远程 对 象 模型 ， 允 许 以 一 种 语言 编写 的 软件 可 以 调用 以 另 一 种 语言 编写 的 对 象 的 方 
法 。 本 质 上 说 ，CORBA 提供 了 类 似 于 RPC 的 设施 ， 用 客户 和 服务 器 存根 来 处 理 远程 方法 调用 中 的 调用 - 
返回 行为 。 

m 转换 请 求 〈 使 用 对 象 适配器 ) 使 得 它 可 以 被 对 象 接受 

E 发 送 请 求 给 对 象 

调用 的 结果 可 以 通过 相似 的 机 制 来 返回 。 

CORBA 也 提供 了 一 个 动态 机 制 来 允许 客户 在 运行 时 确定 对 象 接口 ， 微 软 的 DCOM 对 象 也 采用 了 相似 
的 思想 。 其 想法 是 ORB 保持 了 一 个 接口 仓库 ， 它 描述 了 它 所 管理 的 所 有 对 象 的 接口 。 动 态 接口 绑 定 机 制 
查询 接口 仓库 来 确定 目标 对 象 的 CORBA 接口 ， 然 后 遵守 这 个 接口 进行 调用 。 

使 用 CORBA 的 程序 员 可 以 为 远程 对 象 定义 IDL 规范 或 使 用 动态 存根 设施 (在 运行 时 确定 远程 对 象 的 
特征 )。 一 旦 客户 线程 知道 了 接口 ， 它 可 通过 调用 客户 IDL 或 动态 存根 来 调用 远程 对 象 的 方法 。 

CORBA 有 着 十 分 重要 的 意义 ， 因 为 它 是 商业 环境 中 第 一 个 全 面 的 远程 对 象 包 。 而 且 ，CORBA 也 人 允许 
程序 员 在 大 多 数 的 过 程 化 程序 设计 语言 中 调用 远程 对 象 的 成 员 函 数 ， 这 些 远程 对 象 可 能 是 以 其 他 的 语言 来 
编写 的 。 这 需要 客户 和 对 象 服务 器 都 要 包含 软件 来 进行 CORBA 中 间 语 言 的 转换 ， 并 且 客 户 和 服务 器 软件 
需要 使 用 网 络 来 交换 通信 。CORBA 证 明了 提供 低 成 本 的 远程 对 象 服务 是 可 行 的 。 然 而 ， 当 CORBA 开始 获 
得 商业 上 的 成 功 时 ，Java 出 现 了 ， 对 CORBA 构成 了 极 大 的 挑战 。 现 在 ，.NET 通过 支持 一 组 异 构 语言 
对 象 间 引 用 扩展 了 Java 模型 。 


17.4.3 Java 远程 对 象 


Java 程序 设计 语言 依赖 于 底层 的 Java 虚拟 机 (JVM) 的 存在 。JVM 原理 上 是 一 个 操作 系统 ， 尽 管 通 
常情 况 下 它 是 作为 操作 系统 的 运行 时 系统 扩展 而 实现 的 〈 见 第 18 章 ) Java 包含 了 一 种 称 为 远程 方法 调用 
(RMI) 的 机 制 。JVM 实现 了 它们 自己 的 网 络 协议 ， 该 协议 允许 一 个 JVM 可 以 调用 远程 JVM (运行 在 另 
一 台 机 器 上 ) 上 对 象 的 方法 。 通 常 ， 操 作 发 生 在 调用 远程 方法 的 客户 和 服务 器 上 的 远程 对 象 间 。 

通过 注册 ， 对 象 可 被 其 他 的 JVM 所 访问 。 也 就 是 说 ，Java 应 用 可 以 决定 它 想 要 导出 哪些 对 象 。 它 通 
过 合适 的 JVM 调用 来 在 本 地 JVM 中 注册 对 象 ， 使 得 这 些 对 象 被 置信 一 个 域 的 全 局 名 字 空间 中 。 一 旦 对 象 
被 注册 ， 它 的 方法 可 以 被 域 中 的 任何 客户 所 访问 。 

Java RMI 没有 CORBA 复杂 ， 因 为 环境 是 同 构 的 ， 通 信 仅 发 生 在 Java 程序 之 间 。 这 意味 着 ， 对 象 的 注 
册 和 全 局 名 字 空 间 中 对 象 的 识别 是 需要 使 用 RMI 的 唯一 不 寻常 的 操作 。 


17.5 分布 式 进程 管理 
操作 系统 已 经 发 展 到 支持 程序 员 编写 分 布 式 计算 程序 。 网 络 的 革新 使 得 计算 机 可 以 以 相对 较 高 的 速率 
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进行 通信 (与 以 前 的 点 到 点 通信 相 比 较 )， 操 作 系统 的 设备 管理 部 分 可 以 被 更 新 来 更 好 地 处 理 网 络 。 然 后 ， 
我 们 讨论 远程 文件 ， 它 促使 存在 的 操作 系统 重新 设计 和 重新 实现 了 文件 管理 器 (并 更 进一步 发 展 了 设备 管 
理 ) 来 支持 分 布 式 计 算 。 在 本 章 中 ， 我 们 讨论 了 如 何 开发 存储 管理 器 来 提供 分 布 式 计算 。 我 们 看 到 ， 就 如 
何 更 好 地 设计 下 一 代 技 术 存 在 不 一 致 的 意见 。 有 些 开 发 者 提倡 使 用 远程 存储 器 ， 有 些 提 倡 分 布 式 共享 存 储 
器 ， 有 些 开 发 者 认为 除了 使 用 RPC 外 ， 没 有 必要 提供 更 多 的 支持 。 最 后 大 家 达成 一 致意 见 ， 认 为 使 用 远 
程 对 象 的 方法 来 支持 分 布 式 计算 是 可 行 的 。 

有 趣 的 是 ， 所 有 的 这 些 开发 可 以 通过 修改 分 时 操作 系统 如 UNIX 或 Windows， 使 得 它们 的 设备 、 文 
件 、 存 储 管理 器 支持 穿 过 网 络 的 操作 来 完成 。 工 作 中 使 用 的 许多 方法 实现 了 网 络 透明 性 。 这 意味 着 当 应 用 
程序 使 用 设备 、 文 件 和 可 执行 存储 器 时 ， 它 们 使 用 相同 的 API 来 访问 本 地 和 远程 的 硬件 资源 。 网 络 透 明 性 
是 分 布 式 程序 支持 的 一 个 基本 目标 。 当 然 ， 网 络 透明 性 仅 当 在 没有 性 能 损失 的 情况 下 才 可 接受 。 

如 何 改进 进程 管理 技术 来 支持 分 布 式 计算 呢 ? 一 些 人 认为 这 仍然 是 操作 系统 发 展 的 主要 方面 。 没 有 一 
个 唯一 的 方法 来 完成 进程 管理 分 布 。 有 一 个 巨大 的 解决 这 个 问题 的 动机 : 如 果 进 程 管理 器 可 以 达到 网 络 透 
明 性 ， 整 个 操作 系统 可 以 支持 网 络 透 明 的 函数 和 特征 ， 这 将 构成 一 个 真正 的 分 布 式 操作 系统 (distributed 
operating system) 在 这 个 操作 系统 中 ， 所 有 的 操作 都 是 网 络 透明 的 。 

为 了 实现 设备 、 文 件 和 存储 管理 透明 性 ， 一 般 的 技术 就 是 在 本 地 和 远程 计算 机 上 建立 每 种 管理 器 的 客 
户 和 服务 器 组 件 。 这 暗示 着 分 布 式 进程 管理 器 在 参与 计算 的 每 台 机 器 上 都 有 “代理 ”( 可 能 使 用 客户 - 服 
务 器 协议 ， 但 是 可 能 使 用 一 些 其 他 的 交互 方法 ) 操作 。 大 多 数 的 分 布 进程 管理 器 的 开发 都 是 实验 性 质 的 。 
因为 研究 人 员 和 开发 者 都 在 做 实验 ， 为 它 如 何 工作 而 达成 一 致意 见 还 为 时 过 早 。 同 时 ， 分 布 式 应 用 程序 员 
已 经 在 用 户 空间 使 用 类 库 或 运行 时 系统 来 解决 它 〈 见 第 18 章 )。 在 这 一 节 中 ， 我 们 将 描述 在 分 布 进程 管理 
峰 中 最 关键 性 的 因素 。 


17.5.1 通用 的 进程 管理 


支持 分 布 式 计算 的 一 般 需 求 是 什么 呢 ? 通过 不 同 的 研究 和 开发 ， 已 经 确定 的 主要 任务 如 下 : 

m 创建 或 结束 (creation/destruction): 当 一 个 计算 开始 时 ， 正 常情 况 下 由 单个 进程 决定 在 运行 时 刻 应 
该 创建 哪些 其 他 进程 用 于 计算 。 进 程 管理 器 必须 能 够 提供 工具 来 允许 进程 在 其 他 机 器 中 创建 (或 结 
R) 子 进程 。 

轩 调度 (scheduling): 在 某 些 分 布 式 环境 中 ， 一 个 进程 所 执行 的 位 置 是 由 调度 程序 来 确定 的 ， 而 不 是 
其 他 进程 。 在 这 种 环境 中 当 一 个 进程 变 成 就 绪 时 ， 调 度 程序 会 在 网 络 上 查找 一 个 适当 的 地 方 来 执行 
该 程序 ， 从 而 试图 自动 地 交 闪 执行 。 

m E} (synchronization): 在 第 8 章 中 所 描述 的 典型 同步 机 制 ， 依 赖 于 共享 存储 器 的 存在 来 协同 进程 
活动 。 在 网 络 中 ， 操 作 系 统 通常 不 得 不 提供 一 个 基于 消息 而 不 是 依赖 于 共享 存储 器 的 同步 机 制 。 

m 死 锁 管理 (deadlock management) ， 死 锁 检 测算 法 依赖 于 系统 资源 的 分 配 状 态 知识 来 确定 是 否 有 死 锁 
的 存在 。 在 网 络 中 ， 资 源 集合 包括 每 个 机 器 中 的 所 有 资源 ， 而 且 在 任意 时 刻 检测 所 有 机 器 的 状态 已 
经 被 证 明 非 常 困难 ， 因 而 在 网 络 环境 中 分 布 式 死 锁 检 测 是 一 个 难以 解决 的 问题 。 本 书 中 没有 进一步 
讨论 这 方面 ， 有 兴趣 的 读者 可 以 参阅 Singhal 和 Shivaratri [1994，Ch.7]。 


17.5.2 进程 和 线程 创建 


顺序 操作 系统 提供 了 一 个 进程 创建 调用 ， 来 激活 与 父 进程 在 同一 个 机 器 中 的 子 线程 或 进程 ， 进 程 管理 
器 可 以 建立 线程 /进程 描述 表 来 跟踪 有 关 线 程 /进程 的 所 有 信息 。 更 进一步 ， 描 述 表 被 连接 到 不 同 的 列表 中 
来 表示 等 待 调度 、 等 待 可 重用 资源 、 等 待 同步 事件 、 等 待 MO 完成 和 其 他 的 功能 。 在 分 布 进程 管理 器 中 ， 
第 一 个 工作 是 确定 如 何 建立 、 共 享 和 管理 这 些 描述 表 。 例 如 ， 如 果 机 器 X 上 建立 了 一 个 线程 /进程 ， 而 它 
的 父 进程 在 机 器 Y 上 ， 描 述 表 的 拷贝 有 必要 存在 于 两 台 机 器 上 吗 ? 参与 计算 的 其 他 机 器 怎么 样 呢 ? 如 果 
描述 表 被 缓存 ， 这 些 拷贝 如 何 保持 一 致 呢 ? 如 何 处 理 灾难 恢复 呢 ? 

解决 这 个 问题 的 一 种 方式 就 是 允许 线程 被 分 布 ， 而 让 进程 驻 留 在 它们 被 创建 的 机 器 上 。 在 这 种 情况 
下 ,资源 管理 器 和 线程 可 以 找到 进程 描述 表 来 管理 资源 ， 仅 将 线程 上 下 文 实现 在 远程 机 器 上 ， 当 线程 管理 
机 制 需 要 访问 进程 上 下 文 时 ， 要 涉及 进程 机 器 的 进程 管理 器 和 线程 机 器 上 的 管理 器 间 的 通信 。 
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进程 管理 的 一 般 趋 势 是 在 网 络 上 的 每 台 计算 机 上 都 复制 进程 管理 器 。 每 个 进程 管理 器 使 用 对 等 网 络 协 
议 来 完成 描述 表 操 作 的 所 有 细节 。 通 过 使 用 以 前 章节 中 示例 的 方法 ， 进 程 管理 器 定义 了 具体 的 技术 来 完成 
分 布 式 管理 。 


17.5.3 调度 


在 分 布 式 环境 中 使 用 有 两 种 一 般 类 型 的 调度 方法 : 
m 显 式 调度 (explicit scheduling): 应 用 程序 员 负 责 确定 进程 /线程 应 该 在 哪儿 被 执行 。 
m 透明 调度 (transparent scheduling): 应 用 进程 开始 作为 单线 程 进程 在 一 个 计算 机 中 执行 ， 然 后 ， 当 
新 的 调度 计算 单元 (进程 /线程 ) 被 创建 并 且 就 绪 运 行 时 ， 本 地 机 器 中 的 调度 程序 就 与 另 一 个 机 器 
中 的 调度 程序 进行 交互 来 确定 执行 该 单元 的 最 佳 位 置 。 
客户 一 服务 器 模型 是 一 种 显 式 的 调度 模型 。 服 务 器 在 网 络 上 的 一 个 明确 位 置 上 (并 且 进 行 名 字 服 务 注 
W), 客户 在 网 络 中 的 任意 位 置 使 用 服务 器 。 在 这 种 情形 中 ， 客 户 或 服务 器 的 计算 单元 在 所 在 的 计算 机 中 
被 作为 一 个 普通 进程 对 待 。 默 认 情 况 下 ,计算机 的 多 道 程序 设计 调度 策略 被 用 于 为 计算 部 分 提供 服务 。 
在 透明 调度 中 ， 应 用 程序 创建 在 分 布 式 环境 中 执行 的 可 调度 的 计算 单元 ， 无 需 考虑 哪 一 个 机 器 将 实际 
被 用 于 执行 某 个 特定 单元 。 网 络 上 各 机 器 中 的 调度 程序 可 以 相互 通信 。 在 这 种 方式 下 ， 当 一 个 可 调度 的 计 
算 单元 就 绪 运行 时 ， 该 单元 就 会 传送 到 一 个 合适 的 机 器 中 ， 然 后 在 那个 机 器 中 执行 。 正 常情 况 下 ， 一 旦 单 
元 被 分 配 到 一 个 特定 的 机 器 中 ， 它 就 将 在 那个 机 器 中 完成 它 的 执行 ， 它 将 根据 本 地 多 道 程 序 设计 调度 程序 
的 策略 来 与 其 他 单元 共享 CPU。 透 明 性 是 操作 系统 支持 网 络 透 明 的 线程 或 对 象 的 一 个 主要 驱动 因素 。 


17.5.4 迁移 和 负载 平衡 


静态 调度 策略 ， 如 那些 通过 使 用 简单 的 客户 — 服务 器 计算 实现 的 静态 调度 策略 ， 并 没有 考虑 计算 阶段 
的 动态 行为 。 关 于 动态 自 适 应 技术 有 相当 多 的 研究 和 实验 ， 它 们 都 试图 采用 适当 的 技术 来 最 大 化 加 速 比 ， 
解决 一 个 计算 (或 分 布 式 系统 ) 的 负载 不 平衡 性 一 一 其 中 一 些 处 理 机 有 太 多 的 工作 而 无 法 完成 ， 并 且 其 他 
一 些 处 理 机 可 能 是 空闲 的 。 动 态 技术 的 基本 思想 是 在 工作 已 经 被 初始 分 配 后 ， 通 过 使 用 一 个 透明 的 调度 策 
略 ， 从 忙 的 处 理 机 中 迁移 部 分 工作 到 空闲 的 处 理 机 中 运行 ( 见 图 17-11)。 





a) 负载 迁移 前 b) 迁移 后 


£m. 
CES) 一 个 线程 或 进程 


图 17-11 迁移 和 负载 平衡 
TE: 这 个 分 布 式 环境 的 快照 解释 了 分 配给 不 同 机 器 的 任务 可 能 相差 很 大 。 例 如 ， 机 器 A 支持 许多 进程 ， 然 而 ， 
机 器 B 仅 支持 一 个 。 通 过 将 一 些 进程 从 A 迁移 到 B， 负 载 就 可 以 得 到 平衡 。 


在 网 络 上 ， 通 过 进程 迁移 来 获得 负载 平衡 的 问题 本 质 上 是 一 个 性 能 相关 的 问题 。 动 机 是 利用 技术 来 增 
强 性 能 。 目 标 是 克服 为 获得 负载 平衡 所 隐 含 的 开销 ， 来 达到 整体 性 能 的 提高 。 主 要 的 性 能 障碍 是 迁移 的 代 
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价 。 为 了 将 进程 从 一 个 机 器 移动 到 另 一 个 机 器 ， 停 止 进程 〈 或 线程 或 对 象 ) 是 必要 的 ， 并 保存 它 的 所 有 状 
态 ， 然 后 将 它 的 可 执行 映像 和 状态 传送 到 另 一 个 机 器 中 ， 最 后 在 新 机 器 中 重新 开始 执行 进程 。 如 果 这 些 开 
销 超过 了 迁移 进程 所 带 来 的 利益 ， 那么 性 能 上 的 收益 是 得 不 到 的 。 

研究 者 们 有 在 负载 平衡 方法 中 使 用 轻 权 计算 单元 的 趋势 。 例 如 ,在 Emerald 系统 [Jul etal., 1988] 和 
随后 的 PRESTO 系统 [Bershad et al., 1988] 中 ,迁移 单元 就 是 对 象 。 这 个 工作 最 后 导致 焦点 集中 于 线程 
迁移 策略 上 [Bershad，1990]j。 虽 然 该 研究 报告 中 所 获得 的 性 能 不 显著 ， 但 该 方法 的 有 效 性 最 终 依 赖 于 应 
用 程序 员 是 通过 什么 来 划分 计算 的 。 操 作 系统 的 工作 集中 于 该 环境 中 高 效率 的 通信 机 制 。 


17.5.5 分 布 式 同步 


一 旦 可 调度 的 计算 单元 被 创建 ， 并 且 在 不 同 的 机 器 中 执行 ， 那 么 操作 系统 必须 提供 单元 间 协 同 执行 的 
有 效 方法 〈 当 需要 协同 时 )。 该 领域 的 发 展 有 两 种 趋势 : 
m 显 式 同步 (explicit synchronization) :允许 程序 员 在 计算 单元 中 使 用 一 种 操作 系统 机 制 ， 来 在 要 求 点 
上 对 执行 进行 同步 。 | 
E 透明 和 并 发 控制 (transparent and concurrency control): 假定 临界 区 的 访问 全 部 在 一 个 服务 器 内 进行 
处 理 ， 因 此 焦点 在 于 在 最 务 器 上 获得 有 效 的 原子 操作 ， 即 使 在 交互 扩展 到 几 个 各 自 客户 请 求 的 
时 候 。 
传统 同步 原 语 
信号 量 与 管 程 隐 舍 假定 有 存放 存储 锁 的 共享 存储 器 存在 。 进 程 同 步 通 过 使 用 原子 操作 的 检测 和 设置 变 
量 来 实现 。 一 个 显而易见 的 解决 办 法 是 使 用 底层 的 网 络 存储 器 来 实现 信号 量 。 然 而 ， 这 种 方式 一 般 不 能 很 : 
好 地 工作 ， 因 为 信号 量 等 待 操作 (如 了 操作 ) 为 了 判断 信号 量 什么 时 候 被 释放 ， 它 经 常 需要 读 取 网 络 存 储 
器 ， 这 将 比 在 本 地 主 存 中 读 或 写 一 个 变量 的 时 间 长 数 千 倍 。 
另 一 种 解决 方法 就 是 实现 信号 量 服务 器 ， 打 算 在 信号 量 (或 事件 发 生 ) 上 同步 的 线程 发 送 消息 给 服务 
器 来 宣告 它 的 目的 ， 然 后 阻塞 等 待 服务 器 的 响应 。 当 信和 号 量 服 务 器 决定 线程 可 以 获得 信和 号 量 时 (或 事件 已 
经 发 生 了 ) ， 它 对 客户 线程 作出 反应 ， 使 它 继 续 执行 。 这 种 方法 的 问题 是 使 用 网 络 协议 与 服务 器 交互 的 开 
销 太 大 。 这 要 比 单 处 理 机 信和 号 量 实现 慢 几 个 数量 级 。 
显 式 地 对 事件 排序 执行 
8.2 节 简 述 了 使 用 进程 创建 /结束 作为 一 种 完成 同步 的 机 制 ， 然 而 ， 由 于 创建 /结束 相对 于 信号 量 的 使 
用 开销 较 大 ， 所 以 这 种 技术 被 忽略 了 好 几 年 。 在 20 世纪 70 年 代 后 期 ,研究 人 员 开 始 注意 到 ， 同 步 可 以 通 
过 发 生 在 一 组 进程 内 的 一 组 重要 事件 的 排序 来 完成 。 它 的 开销 没有 进程 创建 /结束 那么 大 ， 它 完成 协同 的 
思想 更 接近 于 创建 /结束 ， 另 外 也 有 其 他 的 好 处 ， 它 并 不 需要 使 用 共享 存储 器 来 实现 同步 (例如 ， 存 储 信 
号 量 、 事 件 控制 块 或 管 程 )。 
这 种 技术 的 基本 思想 是 事先 确定 进程 执行 的 同步 点 是 什么 ? 并 将 这 些 同 步 点 映射 到 可 识别 的 事件 ， 然 
后 根据 想 要 的 同步 计划 来 指定 事件 发 生 的 顺序 。 即使 我 们 根据 事件 发 生来 协调 进程 的 活动 ， 我 们 不 使 用 事 
件 控制 块 来 记录 它们 的 发 生 。 
例如 ， 如 果 p 中 的 事件 z 要 直到 p; 中 的 事件 y 发 生 之 后 才 发 生 , M p 中 的 y 的 发 生 时 间 < 记 中 的 = 
的 发 生 时 间 ， 它 是 操作 p; Mp 的 一 个 约束 〈“< ”意味 着 y 在 x 之 前 发 生 )。 注 意 到 许多 进程 ps 并 不 关心 
x Aly 的 发 生 。 因 此 ， 户 的 适当 操作 可 以 通过 指定 所 有 进程 内 的 所 有 事件 的 偏 序 来 定义 。 这 种 技术 可 以 通 
过 使 用 事件 计数 整 型 变量 来 实现 ， 其 初 值 为 0， 然 后 呈现 一 个 严格 的 非 负 递 增值 [Reed and Kanodia, 
1979]j。 事 件 计数 仅 可 由 下 面 的 函数 来 进行 操作 
E advance (): advance (evnt) 函数 宣告 有 关 事件 计数 事件 的 发 生 ， 并 使 得 它 的 值 加 1. 
E await (): 只 要 evnt<v, await (emt, v) 使 得 调用 进程 阻塞 。 
在 每 次 事件 发 生 时 ， 通 过 advance () 调用 的 显 式 执行 改变 事件 计数 ， 事 件 计 数 可 以 认为 是 一 个 全 局 
etal 一 个 进程 使 用 await O 调用 来 与 全 局 时 钟 进行 同步 ， 它 会 阻塞 直到 全 局 时 钟 到 达 一 个 预定 义 





advance () 和 await O 并 不 需要 像 信号 量 函 数 那样 作为 不 可 分 割 的 操作 来 实现 。 如 果 一 个 进程 在 执 
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ÍT advance () 期 间 被 中 断 并 不 要 紧 ， 仅 需要 函数 最 后 运行 完成 并 增加 合适 的 事件 计数 。 同 样 ，await () 
并 不 准确 地 指出 什么 时 候 调 用 事件 会 被 阻塞 ， 而 是 保证 一 个 下 限 ， 中 断 并 不 会 使 这 个 本 数 失败 。 

事件 计数 的 另 一 个 有 趣 的 特征 是 可 以 通过 复制 网 络 上 不 同 机 器 内 的 事件 计数 来 进行 实现 ， 因 此 消除 了 
共享 存储 器 的 需要 。 这 方面 的 技术 是 高 级 操作 系统 主题 ， 其 灵感 来 自 于 Lamport [1978] 有 关 全 局 时 钟 的 
理论 方面 的 工作 。 

图 17-12 解释 了 如 何 用 事件 计数 来 解决 有 限 缓冲 区 问题 (忽略 了 在 信号 量 解决 方法 中 的 操纵 缓冲 区 的 
临界 区 )。 每 个 生产 者 和 消费 者 保持 了 一 个 私有 整 型 计数 ;， 用 来 选择 用 于 同步 的 事件 计数 值 。 当 进程 初始 
化 时 ， 生 产 者 有 NN 个 空 缓冲 ， 消 费 者 没有 满 缓 冲 。 生 产 者 中 的 i- N 值 最 初 为 - (N-1)， 仅 当 out ( 初 
值 为 0) 小 于 ~ (N -1), 一 个 非 正 值 时 ， 引 起 生产 者 中 的 await () 调用 阻塞 。 因 此 ， 对 N 之 1， 生 产 者 
穿 过 await () 调用 ， 产 生 一 个 缓冲 ， 然 后 增加 事件 计数 。 同 时 ， 消 费 者 会 调用 await 6)， 其 in 初始 化 为 
0 并 且 ; 初始 化 为 1。 它 将 会 阻塞 直到 in 增加 时 ， 就 像 进 程 使 用 in 来 建立 有 关 满 缓冲 操作 的 事件 的 全 排 
序 ， 它 们 使 用 cut 来 建立 有 关 空 缓冲 的 事件 的 全 排序 。 然 而 ， 在 这 两 个 集合 内 的 单个 事件 上 没有 特定 的 排 
序 。 生 产 者 可 能 周期 性 地 生产 许多 满 缓冲 来 等 候 消费 者 消费 ， 其 他 时 间 阻 塞 消费 者 。 


producer() { consumer() { 
/* i establishes local order */ /* i establishes local order */ 

int i = 1; int i = 1; 

while(TRUE) { while(TRUE) { 

/* Stay N-1 ahead of consumer */ /* Stay N-1 behind producer */ 
await(out, i-N); ， await(in, i); 
produce(buffer[(i-1) mod N}); consume (buffer[(i-1). mod N]; 

/* Signal a full buffer */ /* Signal an empty buffer */ 
advance(in); advance (out); 

i = itl; i = itl; 

} } 

} } 


eventcount in=0, out=0; 
struct buffer[N]; 


fork(producer, 0); 
fork(consumer, 0); 








图 17-12 使 用 优先 顺序 来 解决 生产 者 - 消费 者 问题 . 
注 : 这 个 例子 解释 了 事件 计数 器 如 何 用 于 同步 。 思 想 就 是 advance () 调用 增加 一 个 “时 钟 "，await O 阻塞 一 
个 进程 直到 相关 的 时 钟 达到 了 一 个 特定 的 值 。 


用 事件 计数 原 语 可 解决 很 多 同步 问题 。 然 而 ， 原 语 不 能 用 来 解决 所 有 问题 。 一 般 化 方法 需要 一 个 读 原 
语 以 及 一 个 称 为 序列 发 生 器 (sequencer) 的 配合 原 语 抽象 数据 类 型 。 序 列 发 生 器 是 由 Reed 和 Kanodia 
[1979] 在 事件 计数 器 的 扩展 中 导出 的 一 个 高 级 操作 系统 论题 。 

全 局 时 钟 

在 基于 网 络 的 分 布 式 系统 中 ， 可 以 通过 使 用 消息 来 建立 计算 的 次 序 而 获得 同步 。 在 20 世纪 70 年 代 后 
期 开始 了 这 个 领域 的 研究 工作 ， 例 如 ，Lamport [1978] 描述 了 一 种 理论 ， 其 中 在 不 同 计算 机 上 执行 的 进 
程 通过 使 用 一 种 抽象 全 局 时 钟 可 以 同步 它们 的 操作 ， 该 时钟 基于 网 络 中 消息 传送 的 次 序 。 

在 这 种 方法 中 ， 消 息 在 每 个 进程 中 都 是 与 同步 相关 联 的 ， 每 个 消息 都 带 有 发 送 计算 机 本 地 时 间 的 时 间 
稚 ， 然 后 结合 该 时 间 稚 来 确定 与 消息 发 生 相 关联 的 一 个 全 局 次 序 。 在 这 种 抽象 中 ， 如 果 一 个 计算 机 的 时 钟 
慢 于 另 一 个 机 器 的 时 钟 ， 那 么 带 有 慢 时 钟 的 机 器 上 发 生 的 事件 A 可 能 被 处 理 为 好 像 它 在 带 有 快 时 钟 的 机 器 
上 发 生 的 事件 B 之 后 发 生 的 一 样 ， 即 使 A 所 发 生 的 实际 时 间 可 能 在 B 之 前 。 , 

事件 计数 和 全 局 时 钟 都 已 超出 了 本 书 讨论 的 范围 ， 因 为 它们 大 多 是 实验 性 的 和 相对 复杂 的 。 然 而 ， 它 
们 是 完成 分 布 式 同步 的 最 有 希望 的 机 制 。Singhal 和 Shivaratri [1994] 提供 了 一 个 对 分 布 式 系统 中 同步 进 
程 所 采用 技术 的 综合 性 讨论 。 
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事务 

事务 在 很 多 情形 中 可 以 用 于 获得 与 同步 一 样 的 效果 。 分 布 式 组 件 之 间 的 交互 是 非常 复杂 的 ， 这 导致 任 
一 部 分 之 间 都 可 能 交换 相关 的 消息 ,或 者 相关 消息 流 中 的 任 一 消息 都 可 能 会 从 一 个 部 分 发 送 到 另 一 部 分 
中 。 这 种 相关 的 消息 流 称 之 为 一 个 事务 (transaction) 一 一 对 相关 数据 产生 作用 的 一 个 命令 序列 ， 要么 所 
有 命令 都 被 执行 ， 要 么 一 个 也 没有 执行 。 一 个 事务 引起 了 一 组 特殊 的 微观 活动 ， 并 且 在 两 个 部 分 之 间 进 行 
交互 以 获得 某 种 微观 层 的 效果 。 例 如 ， 一 个 计算 机 处 理 的 空中 导航 系统 可 能 会 发 出 一 些微 观 层 操作 来 改变 
航线 ， 这 些 操作 可 能 会 改变 飞机 单个 发 动机 的 速度 、 调 整 飞 机 的 副 翼 以 及 调整 飞机 的 高 度 等 。 调 整 的 量 要 
取决 于 飞机 的 速度 、 飞 机 的 高 度 以 及 控制 台 的 当前 状态 。 改 变 航线 的 微观 层 操 作 要 求 计算 机 化 系统 的 各 个 
组 成 部 分 要 发 送 相关 信息 到 导航 系统 ， 由 导航 系统 再 改变 其 他 部 分 从 而 产生 整体 效果 。 在 这 种 情形 中 ， 重 
要 的 是 要 么 所 有 相关 的 微观 层 改变 都 已 经 发 生 ， 要 人 么 根本 没有 一 个 发 生 。 

作为 一 个 软件 系统 例子 ， 假 设 一 个 服务 器 包含 有 带 有 N 个 域 的 一 组 记录 ， 它 们 可 以 被 用 户 进程 集合 
中 的 任 一 个 进程 更 新 。 如 果 有 两 个 或 多 个 客户 都 企图 同时 更 新 单条 记录 中 的 多 个 域 ， 那 么 问题 就 出 现 了 。 
假设 进程 p; 改变 记录 & 中 的 域 3、6、2 以 及 8 ( 按 这 个 次 序 ) 的 同时 ， 进 程 p 试图 改变 记录 中 的 域 5、 
8、4 以 及 6。 那么 将 会 有 两 个 客户 命令 序列 ， 如 图 17-13 所 示 ， 首 先 p 发 送 一 个 消息 到 服务 器 要 求 更 新 
记录 中 的 域 3， 然 后 发 送 一 个 消息 要 求 更 新 记录 k 中 的 域 6， 依 此 类 推 。 


HE p, 进程 





3); send(server, update, k, 5); 
6); send(server, update, k, 8); 
2); send({server, update, k, 4); 
8); send(server, update, k, 6); 


send(server, update, 
send(server, update, 
send(server, update, 
send(server, update, 


awn 





图 17-13 更 新 一 个 多 域 的 记录 
TE. 如 果 4 个 send 操作 的 集合 可 以 作为 事务 来 对 待 ，p; 或 p; 要 么 没有 其 他 操作 的 干预 而 执行 所 有 的 4 个 操作 ， 
或 4 个 操作 根本 不 会 执行 。 


由 于 可 能 p; 更 新 了 域 3 和 6 之 后 让 p 更 新 域 5、8、4 以 及 6， 然后 又 让 p 更 新 域 2 和 8， 因 此 就 会 
出 现 一 种 竞争 的 情形 。 结 果 是 服务 器 中 域 8 的 值 是 p 更 新 的 ， 但 域 6 的 值 是 py 更 新 的 。 在 一 些 应 用 程序 
中 ， 这 也 许 是 可 以 接受 的 ， 但 在 其 他 一 些 应 用 中 这 却 是 灾难 性 的 一 一 例如 ， 如 果 域 6 保存 一 个 人 的 名 字 并 
且 域 8 保存 地 址 的 情况 。 

事务 的 思想 是 操作 序列 必须 被 组 织 作为 一 个 整体 来 执行 ， 如 同 执行 单个 命令 一 样 。 如 果 序 列 都 完成 或 
者 根本 就 没有 被 执行 〈 直 到 以 后 的 某 个 时 间 被 执行 )， 那 么 事务 将 会 是 正确 的 。 在 前 面 的 例子 中 ， 这 将 意 
昧 着 在 另 一 个 事务 开始 之 前 ， 要 么 进程 p 完成 它 的 整个 事务 处 理 ， 要 么 进程 p 先 完成 。 

事务 在 分 布 式 数据 库 中 被 广泛 使 用 ， 因 为 在 很 多 不 同 的 应 用 中 多 个 域 记录 的 更 新 是 很 常见 的 。 在 那些 
怀疑 可 能 会 失效 或 者 不 幸 失效 的 后 果 是 灾难 性 的 系统 中 ， 事 务 也 是 有 用 的 。 如 果 服 务 器 在 事务 的 中 间 失 
效 ， 那 么 记录 可 能 在 失效 之 前 某 些 域 已 经 被 改变 ， 使 永久 保留 的 数据 出 现 不 一 致 的 状态 。 

程序 员 通过 使 用 指令 序列 的 开始 与 结束 标记 来 标识 一 个 事务 。 服 务 器 会 检测 事务 开始 的 标记 ， 并 随后 
将 把 所 有 来 自 客户 端的 命令 作为 事务 的 一 部 分 来 对 待 ， 直 到 收 到 一 个 事务 结束 的 标记 。 如 果 服 务 器 代表 一 
个 特定 客户 开始 处 理 一 个 事务 ， 服 务 器 就 有 责任 要 么 执行 完 所 有 的 命令 直到 事务 结束 ， 要 么 保留 服务 器 的 
状态 好 像 一 个 命令 也 没有 执行 一 样 。 当 服务 器 遇 到 事务 结束 标记 时 ， 它 就 提交 (submit) 命令 序列 的 结果 ， 
从 而 改变 服务 器 的 信息 状态 。 如 果 服 务 器 由 于 与 其 他 事务 的 冲突 而 中 止 了 正在 执行 的 事务 ， 它 就 可 能 取消 
(abort) 该 次 事务 。 如 果 中 断 事务 ， 服 务 器 将 焦 复 所 有 的 信息 〈 包 括 从 事务 开始 起 执行 的 命令 所 改变 的 状 
D) 到 事务 开始 之 前 它们 所 处 的 状态 。 客 户 也 可 以 取消 一 次 事务 。 然 而 ， 事务 被 取消 ， 通 常 指 的 是 由 于 命 
令 冲突 由 服务 器 所 做 的 取消 操作 。 

在 很 多 情形 中 ， 操 作 系统 使 用 事务 来 协同 进程 的 操作 。 例 如 ， 远 程 文件 系统 为 大 多 数 页 级 、 块 级 以 及 文 
件 级 的 失效 处 理 而 使 用 事务 ， 因 为 信息 的 移动 要 求 在 任意 时 刻 对 客户 端 与 服务 器 状态 中 的 多 个 域 进行 更 新 。 
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事务 实现 要 求 必 须 在 事务 开始 的 时 候 ， 有 效 地 对 相关 资源 状态 作 一 快照 。 假 定 快照 信息 可 以 用 于 恢复 
检测 点 的 资源 状态 ， 那 么 事务 中 的 命令 就 在 资源 的 拷贝 或 者 初始 资源 上 执行 。 如 果 在 一 个 事务 进行 中 另 一 
个 事务 又 开始 了 ， 那 么 状态 必须 认真 地 保存 。 如 果 第 一 个 事务 被 提交 ， 即 保留 操作 过 程 的 结果 。 如 果 事 务 
被 取消 ， 资 源 状态 可 以 基于 检测 点 的 信息 进行 恢复 。 如 果 事 务 被 提交 ， 改 变 后 的 拷贝 就 变 成 了 主 版 本 ， 检 
测 点 的 信息 就 可 以 释放 了 。 

在 事务 操作 情形 下 可 能 会 发 生死 锁 ， 一 个 服务 器 在 执行 所 有 事务 过 程 中 可 以 涉及 到 死 锁 ， 所 以 只 要 事 
务 出 现 不 进行 的 情况 ， 服 务 器 就 可 以 执行 一 个 检测 算法 进行 死 锁 检 测 。 服 务 器 可 以 根据 它 的 检测 条 件 取消 
任 一 事务 ， 这 样 可 以 从 死 锁 中 人 恢复， 而 浪费 的 仅仅 是 取消 事务 所 用 的 处 理 时 间 。 

并 发 控制 

并 发 控制 是 一 种 技术 ， 通 过 它 系 统 可 使 一 组 进程 在 一 个 共享 资源 集 上 交叉 执行 一 组 事务 。 它 所 产生 的 
效果 如 同 每 个 进程 在 事务 过 程 中 独 亭 所 有 的 相关 资源 一 样 。 因 此 ， 尽 管事 务 内 部 的 操作 可 能 可 以 交叉 进 
行 ， 但 并 发 控制 保证 一 组 事务 间 逻 辑 上 的 串 行 化 。 

在 服务 器 中 ， 资 源 锁 是 一 种 实现 并 发 控制 的 最 简单 机 制 。 当 事务 改变 资源 的 一 部 分 时 ， 服 务 器 就 在 事 
务 持续 期 间 锁定 该 资源 。 随 后 的 试图 改变 资源 的 进程 会 因为 资源 被 锁 而 不 能 实现 ， 一 直 要 等 到 第 一 个 事务 
结束 。 

两 阶段 锁 协议 〈two-phased locking protocol) 保证 一 组 事务 将 产生 正确 的 串 行 化 结果 ， 且 不 会 发 生死 
锁 。 在 第 一 个 阶段 ， 事 务 请 求 完 成 任务 所 需要 的 所 有 锁 ， 并 且 期 间 不 释放 任何 一 个 锁 。 在 第 二 个 阶段 ， 它 
释放 锁 并 且 不 再 请 求 。 一 种 极端 的 情形 是 ， 当 事务 被 初始 化 时 发 出 所 有 的 锁 请 求 ， 并 且 当 事 务 结束 时 发 出 
所 有 的 锁 释 放 请 求 。 

由 于 不 可 避免 要 使 用 锁 ， 从 而 出 现 了 两 个 与 资源 “部 分 ”的 大 小 和 死 锁 相关 的 问题 : 

E 如 果 资 源 是 一 个 文件 ， 那 么 锁 应 该 加 到 一 个 磁盘 页 、 一 个 逻辑 文件 块 还 是 整个 文件 ? 研究 者 们 对 每 

个 情形 都 展开 了 激烈 的 争论 ， 争 论 都 是 围绕 着 管理 的 锁 数目 与 支持 事务 间 并 发 访问 量 之 间 的 折 囊 所 
进行 的 。 

E 如 果 事 务 恰好 锁 住 了 系统 资源 某 些 部 分 的 同时 又 请 求 其 他 部 分 ， 死 锁 就 会 发 生 。 在 采用 两 阶段 锁 方 

法 的 情况 下 ， 会 强制 每 个 事务 在 初始 化 时 请 求 所 有 它 需要 的 锁 。 并 发 控制 机 制 必须 显 式 地 避免 死 
锁 ， 否 则 ， 它 将 不 得 不 采用 在 第 10 章 中 所 描述 的 一 种 技术 一 一 例如 ， 强 制 实行 每 个 事务 请 求 锁 的 
次 序 、 死 锁 检测 或 者 剥夺 策略 。 

并 发 控制 是 围绕 逻辑 上 集中 的 锁 管 理 器 来 考虑 的 。 如 果 资 源 分 布 在 网 络 上 ， 锁 管理 器 必须 能 够 从 每 个 
构成 结 点 中 获得 状态 。 与 多 道 程序 设计 环境 相 比 ， 网 络 通信 的 速度 相对 慢 ， 因 此 基于 加 锁 的 分 布 式 并 发 控 
制 将 倾向 于 使 用 锁 来 控制 相对 大 的 资源 单元 。 回 想 一 下 文件 高 速 缓存 的 讨论 中 ,解释 了 如 何 使 用 版 本 来 处 
理 并 发 文件 访问 。 类 似 的 方法 可 以 用 于 并 发 控制 中 ， 它 通过 在 每 个 事务 上 设置 一 个 时 间 惟 ， 然 后 基于 时 间 
稚 维 护 版 本 的 拷贝 。 版 本 后 处 理 人 允许 确 定 访问 冲突 的 情形 ， 并 且 确 定 事务 发 生 的 次 序 。 虽 然 这 种 方法 不 能 
解决 所 有 的 冲突 现象 ， 但 它 确实 可 以 支持 很 多 的 情况 。 

另 一 个 困难 如 同一 般 的 同步 中 所 出 现 的 一 样 ， 即 如 果 事 务 起 源 于 不 同 的 机 器 ， 它 们 的 时 间 截 值 必 须 从 
一 个 全 局 时 钟 ( 而 不 是 一 个 局 部 时 钟 ) 中 获得 。 通 常情 况 下 ， 锁 被 用 于 在 运行 时 间 的 任意 冲突 情况 ， 而 时 
间 稚 方法 建立 了 一 个 固定 的 串 行 次 序 。 


17.6 人 小结 


本 章 中 介绍 了 操作 系统 支持 分 布 式 计算 的 方法 。 现 有 的 趋势 是 让 操作 系统 提供 某 种 形式 的 网 络 存储 
器 。 网 络 存储 器 可 通过 以 下 方式 添加 到 计算 环境 中 : 或 是 建立 一 个 可 被 应 用 程序 员 使 用 的 远程 存储 器 接 
口 ， 或 是 在 主 存 接口 下 实现 分 布 式 共享 存储 器 。 分 布 式 共享 存储 器 方法 的 接口 对 应 用 程序 员 来 说 有 更 大 的 
吸引 力 ， 它 是 两 个 方法 当中 更 具 实验 性 的 。 而 远程 存储 器 实现 更 流行 ， 因 为 它们 易于 设计 和 实现 ， 它 们 让 
应 用 程序 员 有 更 多 的 控制 权 ， 并 且 在 应 用 领域 内 有 大 量 的 追随 者 。 从 长 远 来 看 ， 分 布 式 虚拟 存储 器 的 程序 
设计 因为 其 接口 简单 ， 它 将 一 定 会 占据 主导 地 位 。 

RPC 方法 已 经 成 为 支持 客户 — 服务 器 计算 模式 的 主要 机 制 。 当 代 远 程 文 件 服务 器 ， 如 Sun 的 NFS、X 
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windows 的 窗口 系统 以 及 很 多 其 他 的 分 布 式 服务 都 是 采用 RPC 实现 的 。 本 世纪 初 ， 商 业 化 的 系统 中 就 已 经 
提供 了 RPC 编程 工具 ， 因 而 也 快速 出 现 了 一 批 采 用 RPC 的 商业 化 应 用 软件 。 今 天 ，RPC 是 实现 分 布 式 软 
件 中 最 广泛 使 用 的 工具 之 一 。 

操作 系统 必须 提供 基本 的 工具 来 支持 发 生 在 网 络 环境 中 的 进程 管理 。 网 络 环境 的 同步 是 本 地 操作 系统 
功能 的 一 个 显 式 扩展 。 这 导致 了 事务 的 使 用 以 及 对 网 络 上 发 生 的 事件 建立 排序 的 机 制 的 采用 ， 而 不 能 再 依 
赖 于 传统 的 共享 存储 器 同步 机 制 。 


17.7 JÆ 
1. 在 某 个 程序 中 ， 数 组 A PHN 个 元 素 使 用 同一 段 程序 进行 并 行 计 算 ， 代 码 段 如 下 ， 


for (i=1; i< =N; i++) | 
A [i] = A [i21] * B [i]; 
<Other computation>; 
| 


推荐 一 种 数据 划分 方案 来 使 计算 获得 好 的 加 速 比 ， 或 者 讨论 一 下 为 什么 不 能 这 么 做 。 

2. 下 面 这 些 是 与 计算 数据 划分 及 功能 划分 相关 的 问题 ; 

a. 第 9 章 习题 中 的 梯形 规则 积分 程序 是 采用 数据 划分 还 是 功能 划分 策略 呢 ? 解释 一 下 你 的 依据 。 
b. 在 实验 练习 11.1 中 的 SOR 程序 是 采用 数据 还 是 功能 划分 策略 呢 ? 解释 一 下 你 的 依据 。 

3. 假定 一 个 大 的 、 顺 序 程序 在 单 处 理 机 上 执行 需要 1688 秒 ， 一 组 程序 员 将 这 个 计算 划分 成 15 个 单独 
的 计算 (RAC, G, =, Cy). ERRUA, BET Co 来 初始 化 计算 ; Gi3 是 错误 处 理 代 
码 ; Cu 打印 结果 ， 释 放 动 态 数据 结构 ， 然 后 终止 计算 。 其 他 的 计算 可 以 同时 运行 。 和 大 的 顺序 程 
序 一 样 使 用 相同 的 数据 集 ， 分 布 式 计算 在 网 络 上 的 16 台 机 器 上 执行 ， 每 个 小 计算 的 执行 时 间 如 下 
表 所 示 ， 计 算 的 加 速 比 是 多 少 ? 








计 ë # 执行 时 间 
Cy 22 
CQ 161 
Q 153 
Cs 99 
C4 100 
Cs 133 
Ce 151 
GC, 164 
Cs 159 
Co 196 
Cio 142 
Cu 131 
C12 163 
Cis 0 
Cu 36 


4. 在 最 近 的 10 年 内 ， 网 络 带 宽 从 大 约 10 Mbps 增加 到 1 Gbps。 然 而 ， 由 于 信号 传播 限制 ， 延 迟 ( 消 
息 从 一 个 地 方 传送 到 另 一 个 地 方 所 用 的 时 间 ) 并 没有 以 这 种 速率 增加 。 带 宽 的 改变 对 远程 过 程 调 
用 技术 有 什么 影响 ? 
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. 给 定 上 题 中 带宽 和 延迟 的 描述 ， 带 宽 对 分 布 式 共 享 存储 器 技术 有 什么 影响 ? 

. 讨论 一 下 使 用 RPC 来 实现 分 布 式 共享 存储 器 的 优 缺 点 。 

. 分 布 式 虚 存 系统 中 的 远程 页 式 服务 器 可 以 设计 得 比 传统 的 远程 文件 服务 器 要 快 吗 ? 为 什么 ? 

. 比较 一 下 CORBA 和 Java 远程 对 象 模型 。 在 你 的 回答 中 可 以 考虑 代码 移动 特性 、 方 法 接口 一 般 化 技 
术 以 及 绑 定 技术 。 

9. 使 用 RPC 报 文 ， 实 现实 验 11.1 中 的 SOR 程序 。 


实验 17.1: 使 用 远程 过 程 调用 


这 个 练习 可 以 通过 使 用 Sun RPC 机 制 来 解决 ， 这 个 软件 包 在 大 量 的 操作 系统 上 实现 了 ， 包 括 
Solaris 和 Linux。 l 
在 这 个 练习 中 ， 通 过 使 用 Sun RPC 包 来 操作 服务 器 上 的 结构 化 数据 ， 首 先 ， 你 需要 编写 一 个 程序 来 产 
生 结 构 化 数据 记录 流 ， 形 式 如 下 : 
struct timeval; 
char *; 
} 


例如 ， 一 个 记录 可 能 看 起 来 如 下 : 


| 
| 
1016305702 
40184 
l; 
“This is a string” 
. 
使 用 Sun RPC 包 ， 在 一 个 公共 的 模块 内 构建 三 个 远程 过 程 ， 它 们 将 在 远程 过 程 服务 器 上 执行 : 


int openRemote (char * file_ name); 


int storeRemote (int my_ file, struct struct _t record); 


O N DA U 











int closeRemote (int my_ file); 


openRenote () 过 程 打 开 服务 器 上 的 一 个 有 名 文件 。closeRemote () 过 程 使 用 openRemote () 的 返回 
值 来 关闭 一 个 指定 的 文件 。 每 当 产生 一 条 记录 ，storeRemote () 过 程 就 被 调用 一 次 ， 使 得 记录 被 保存 在 服 
务 器 上 的 打开 文件 表 中 。 

你 的 客户 程序 至 少 应 该 产生 25 条 记录 (包含 随机 的 、 但 是 可 识别 的 数据 ) ， 使 用 这 三 个 过 程 将 记录 存 、 
储 在 服务 器 上 的 文件 中 。 你 的 解决 方案 可 以 在 单个 机 器 上 工作 ， 也 可 以 在 通过 网 络 互 连 的 两 台 机 器 间 


运行 。 
背景 


几乎 所 有 的 当代 操作 系统 都 支持 RPC，Sun Microcomputers 公司 在 开发 产品 质量 的 实现 方面 是 早期 的 
SF, MA Sun RPC 是 免费 发 布 的 ， 它 是 第 一 个 广泛 使 用 的 RPC 包 (特别 是 在 UNIX 系统 中 )。 同 时 ， 开 
放 系统 基金 会 定义 了 它 自 己 的 RPC 机 制 ， 结 果 它 最 终 成 为 了 微软 RPC 包 的 基础 。Sun 的 RPC 和 微软 的 
RPC 是 有 一 些 区 别 的 ， 如 果 要 在 两 种 系统 上 解决 问题 需要 对 它们 进行 单独 的 描述 。 这 儿 是 关于 Sun RPC 
的 讨论 ， 你 也 可 以 阅读 微软 的 MSDN 文档 来 在 Windows 环境 下 解决 这 个 问题 。 

Sun RPC 对 应 于 图 17-8 所 示 的 客户 - 服务 器 模型 (在 WWW E, 许多 不 同 的 URL 上 有 远程 过 程 调用 
编程 指导 )。 其 思想 就 是 建立 一 个 运行 在 远程 机 器 上 的 服务 器 ， 它 可 以 被 本 地 机 器 上 的 线程 来 调用 其 上 的 
过 程 。 
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Sun AY RPC 软件 被 设计 在 NFS 的 实现 中 使 用 。 它 最 初 发 布 了 一 个 低级 和 中 级 的 API。 低 级 功能 允许 程 
序 员 实现 客户 和 服务 器 间 共 享 计算 的 一 般 形 式 ， 但 是 它 比 中 级 的 API 使 用 起 来 更 复杂 。 中 级 是 低层 的 抽 
象 ， 它 使 得 应 用 程序 员 可 以 使 用 中 级 形式 的 RPC 而 不 用 知道 低层 API 的 额外 的 一 些 特征 〈 例 如 ， 在 低级 
API 中 ， 有 一 个 类 似 信号 的 设施 ， 但 在 中 级 接口 中 并 不 可 用 )。 使 用 中 级 接口 的 一 个 优点 (与 低级 接口 相 

比 ) 是 你 不 必 知 道 形成 IP 地 址 、 使 用 套 接 字 等 细节 。 低 级 API 一 般 来 说 并 不 被 应 用 程序 员 使 用 ， 除 非 应 
用 程序 员 打 算 学 习 UDPZTCP 网 络 协议 的 细节 并 需要 一 些 特有 的 特征 。 如 果 使 用 低级 接口 编写 代码 ， 你 需 
要 显 式 地 管理 套 接 字 和 传输 层 协 议 。 

中 级 API 实现 了 图 17-8 所 示 的 大 部 分 概念 。 然 而 ， 它 没有 实现 一 个 重要 的 特征 ， 那 就 是 它 并 没有 使 

得 远程 过 程 调用 对 客户 程序 是 透明 的 。 所 有 的 远程 过 程 是 通过 调用 一 个 客户 存根 程序 callrpc () (解释 如 
下 ) 来 激活 的 。 在 中 级 API 引 入 几 年 后 ，Sun 发 布 了 第 三 层 API (一 般 称 为 rpcgen 层 API， 而 不 是 所 谓 的 
“高 层 ”API) 。 最 高 层 的 API 实现 了 使 得 本 地 和 远程 过 程 调用 在 调用 程序 中 有 相同 样式 的 透明 性 。rpcgen 
级 使 用 源 代码 产生 工具 来 完成 透明 性 (rpcgen 程序 )。 程 序 员 编写 远程 过 程 的 高 级 语言 规范 一 一 认为 它 是 
函数 原型 一 一 rpcgen 用 来 为 客户 和 服务 器 产生 特定 程序 的 源 代码 。 你 可 以 使 用 rpcgen 级 接口 来 提供 实验 
练习 的 一 种 解决 办 法 ， 尽 管 我 们 将 考虑 低级 接口 ， 看 rpcgen 层 如 何 被 实现 。 

. 在 API 的 所 有 级 别 上 ， 客 户 机 运行 使 用 客户 存根 的 应 用 程序 。 在 中 间 级 实现 中 ， 即 使 应 用 程序 调用 了 
不 止 一 个 不 同 的 远程 过 程 ， 也 只 有 单个 的 存根 。 在 高 层 API 中 ，rpcgen 程序 为 每 个 远程 过 程 建立 单独 的 客 
户 存根 一 一 更 像 图 17-8 所 示 的 例子 。 服 务 器 程序 (或 服务 器 存根 ) 在 中 级 或 低级 方法 中 是 手工 构建 的 ， 
在 高 级 方法 中 是 自动 地 从 rpcgen 规范 中 产生 的 。 

服务 器 组 织 结构 
服务 器 程序 定义 了 一 个 永久 的 单线 程 进程 ， 它 会 初始 化 并 一 直 运 行 ， 直 到 它 被 某 个 外 部 的 行为 挂 起 

(如 操作 员 终 止 它 )。 当 不 同 的 客户 调用 RPC 服务 器 时 ， 它 接受 一 个 请 求 ， 调 用 过 程 的 本 地 版 本 ， 将 结果 
返回 给 客户 ， 然 后 等 待 另 一 个 请 求 。 如 果 客 户 发 生 调 用 时 服务 器 是 忙 的 ， 那 么 这 个 客户 要 等 前 一 个 客户 完 
成 后 才 开 始 执行 。 

服务 器 代码 首先 建立 一 个 命名 服务 ， 用 于 为 客户 定位 可 执行 特定 远程 过 程 的 服务 器 ， 这 称 为 远程 过 程 
注册 。 一 旦 远程 过 程 被 注册 ， 客 户 就 可 以 通过 查询 命名 服务 来 找到 远程 过 程 服务 器 。 在 最 简单 的 情况 下 ， 
仅 在 服务 器 上 进行 注册 ， 需 要 客户 知道 RPC 服务 器 的 DNS 名 字 。 在 服务 器 注册 了 它 的 远程 可 调用 模块 后 ， 

它 将 等 候 RPC 请 求 。 当 一 个 请 求 到 达 时 ， 服 务 器 解码 调用 的 详细 信息 (过 程 识别 和 参数 )， 进 行 本 地 过 程 
调用 ， 然 后 对 结果 进行 编码 并 将 它们 返回 给 客户 (存根 )。 

Sun 设计 其 RPC 包 使 得 多 个 远程 过 程 可 以 被 包装 在 单个 RPC 程序 中 。 这 人 允许 单个 的 服务 器 线程 调用 

不 同 的 远程 过 程 ， 允 许 这 些 过 程 在 服务 器 上 的 相同 地 址 空间 中 工作 。 

在 提供 RPC 支持 方面 也 有 一 些 其 他 的 重要 因素 需要 考虑 。 一 旦 RPC 程序 被 配置 ， 它 被 期 望 允许 运行 
无 限 长 的 时 间 。 而 且 , —E RPC 过 程 可 用 ， 大 量 的 客户 程序 可 以 依赖 远程 过 程 。 假 定 过 程 实现 包含 了 一 
个 小 的 bug， 或 程序 员 创 建 了 = 有 额外 特征 的 过 程 新 版 本 。 使 用 现 有 版 本 的 一 些 客户 并 不 想 要 更 新 到 新 版 本 。 
因为 需要 一 些 客户 编程 来 利用 新 特征 或 调试 bug， 其 他 的 客户 可 能 调用 新 版 本 过 程 。 因 为 这 些 可 能 性 ，Sun 
设计 了 RPC 设施 支持 每 个 远程 过 程 可 以 有 多 个 版 本 。 也 就 是 说 ， 可 能 有 不 同 的 远程 过 程 ， 它 们 有 相同 的 
RPC 程序 和 远程 过 程 名 ， 但 是 有 不 同 的 版 本 号 。 这 意味 着 当 一 个 客户 查询 它 的 远程 过 程 实现 时 ， 它 需要 知 
道 远程 过 程 名 、RPC 程序 名 和 版 本 号 。 即 RPC 服务 器 程序 的 实现 是 通过 (remote procedure, RPC _ pro- 
gram, version) 来 区 分 的 。 

在 实现 一 个 特定 的 远程 过 程 服务 器 中 ， 设 计 者 首先 要 确定 要 实现 哪个 过 程 。 假 定 服务 器 可 以 支持 在 特 
定 RPC 程序 (RECPROG) Hon 个 不 同 的 名 为 RP,，RP, ，…，RP, 的 远程 过 程 ， 所 有 的 过 程 都 有 相同 的 版 本 号 

(RPCPROGVERS) 。 小 于 0x4000000 的 RPC 程序 号 被 系统 永久 地 保留 。 应 用 (包括 你 的 实验 练习 的 解决 方案 ) 
使 用 了 一 个 随机 选择 的 程序 号 ， 它 大 于 0x4000000。 主 程序 有 如 下 形式 : 


main(int argc, char *argv[]){ 
register SVCXPRT *transp; 


/* Register the remote procedures with the name service */ 
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transp = svcudp_ create(RPC_ANYSOCK); 
if(!svc_register(transp, 

RPCPROG, RPCPROGVERS, RP1, IPPROT_UDP)) { 
fprintf(stderr, “ts”,“unable to register (X, X), udp).”); 
exit(1); 

} 


transp = svcudp_create(RPC_ANYSOCK); 
if(!svc_register(transp, RPCPROG, RPCPROGVERS, RP,, IPPROT_UDP)) { 
fprintf(stderr, “%s”, “unable to register (X, X), udp).”); 
exit(1); 

} 


transp = svcudp_create(RPC_ANYSOCK); 
if(!svc_register(transp, RPCPROG, RPCPROGVERS, RP,, IPPROT_UDP)) { 
fprintf(stderr, “ts”, “unable to register (X, X), udp).”); 
exit(1); 

} 


/* Turn control over to a library routine that makes the calls */ 
sve_run(); 
fprintf(stderr, %s", “svc_run returned”); 
exit(l); /* Should never reach this point */ 
ye 
在 服务 器 注册 远程 过 程 之 前 ， 它 必须 打开 一 个 UDP 套 接 字 ， 客 户 机 用 它 来 对 服务 器 寻 址 。 这 可 以 通 
过 中 级 函数 调用 来 完成 : 


svcudp _ create (RPC _ANYSOCK) 


这 个 RPC 类 库 函 数 在 服务 器 端 创建 了 一 个 UDP 套 接 字 ， 它 会 与 远程 过 程 名 一 起 注册 。svc_ register () 
过 程 用 于 注册 过 程 。 在 这 个 函数 中 ， 如 果 最 后 一 个 参数 指定 了 协议 号 〈 框 架 中 的 IPPROT _ UDP) ， 那 么 向 服 
务 器 操作 系统 端口 管理 器 〈 称 为 portmapper) 注册 套 接 字 使 其 可 以 被 外 部 使 用 。 这 人 允许 客户 使 用 服务 器 的 
portmapper 以 及 更 一 般 的 网 络 命名 服务 器 来 发 现 注册 RPC 过 程 的 端口 〈 假 定 客户 知道 运行 服务 器 代码 的 机 
器 名 )。 

如 果 你 研究 了 代码 框架 ， 你 会 发 现 它 是 由 一 组 类 似 的 “模板 ”集合 组 成 的 ,使 用 sve _ register () 
来 注册 每 个 远程 过 程 。 通 过 “模板 ”"， 这 意味 着 你 可 以 拷贝 从 svcudp _ create () 调 用 开始 的 7 行 代码 ， 并 
将 它们 粘贴 到 另 一 个 过 程 注册 的 下 面 ( 需 要 在 新 的 7 行 代码 实例 中 改变 远程 过 程 名 )。 服 务 器 主 程序 的 第 
二 部 分 在 每 个 RPC 服务 器 中 占 3 行 代码 ， 它 会 调用 svc _ run O 而 从 不 会 从 调用 中 返回 。 

svc_run () 函数 是 实现 规范 的 服务 器 循环 的 另 一 个 库 函 数 : 


sve_run{ 


while(1l) { 
/* Blocking read on transport socket */ 
read(...); 


/* Now we have a RPC request */ 
switch() { 
case 0: /* issue an error */ 
case RP,: /* call RP, */ 
case RP,: /* call RP, */ 


case RPi: /* call RP, */ 


svc_getargs(...); /* Unmarshall the arguments */ 
rp i sve(...); /* The local procedure call */ 
svc_sendreply(...); /* Marshall the args, return */ 
break; 


case RP,: /* call RP, */ 

default: 

} 
/* Should never reach this point */ 
}; 


DAK HF 455 








主要 的 任务 是 等 候 来 自 客 户 的 RPC 请 求 ， 然 后 根据 请 求 的 远程 过 程 号 来 执行 调用 。 我 们 给 出 了 如 何 
处 理 参 数 的 细节 ， 它 会 在 有 关外 部 数据 表示 的 一 节 中 描述 。 在 这 个 代码 框架 中 ， 你 会 明白 在 RPC 请 求 到 
达 时 ， 会 从 请 求 处 得 到 参数 ， 并 使 用 这 些 参数 来 在 服务 器 中 进行 远程 过 程 调用 。 当 过 程 返回 时 ， 结 果 被 打 
包 成 UDP 包 然 后 返回 给 客户 。 注 册 和 svc _run () 函 数 定义 了 图 17-8 的 服务 器 存根 。 

客户 端 组 织 结构 

客户 程序 由 具体 的 应 用 代码 以 及 对 客户 RPC 软件 的 调用 一 一 客户 存根 组 成 。Sun RPC 为 其 他 的 高 级 语言 
提供 了 接口 ， 但 是 最 初 的 API 和 实现 都 是 在 C 中 完成 的 ， 解释 都 是 基于 C 的 。 一 般 的 框架 对 应 于 图 17-8 所 
示 。 如 上 面 所 谈 到 的 ， 中 级 的 RPC 包 并 不 支持 透明 性 。 例 如 ， 在 服务 器 调用 RP;， 应 用 代码 有 以 下 形式 : 


#include <rpc/rpc.h> 


main(int argc, char *argv[]) { 
int result; 


/* call RP, */ 
result = callrpc(rpc_host_name, RPCPROG, RPCPROGVERS, RP;, ...); 
if(result != 0) { 
clnt_perrno(result) ; 
exit(1); 
} 

} 

首先 ， 中 级 RPC 接口 假定 应 用 程序 员 能 够 确定 RPC 服务 器 的 名 字 (代码 段 中 为 rpc _ host _ name) 而 
无 需 使 用 命名 服务 器 。 在 简单 的 情况 下 ， 如 本 实验 练习 ， 客 户 可 以 经 由 命令 行 参数 或 输入 数据 来 指定 服务 
器 主机 名 〈 例 如， 使 用 scanf () 来 进行 读 取 )。 在 产品 环境 中 ， 应 用 程序 员 需 要 与 命名 服务 器 协商 来 确定 
RPC 服务 器 的 名 字 。 远 程 过 程 调用 一 一 callrpc () are! Rae (remote _ procedure, 
RPC_ program, version) 参数 。 

在 callrpe () 调用 中 省 略 的 参数 是 用 来 传输 参数 的 细节 以 及 接收 结果 的 细节 。 服 务 器 方 函数 sve _ 
getargs () FI svc _ sendreply () (在 上 面 的 svc _ run () 函数 中 ) 根据 参数 个 数 和 特定 远程 过 程 的 类 型 
来 处 理 这 些 参数 。 这 些 是 由 程序 员 定 义 的 外 部 数据 表示 来 指定 的 (下 面 会 讨论 )。 

在 考虑 外 部 数据 表示 后 ， 我 们 将 描述 rpcgen 工具 如 何 允 许 应 用 程序 员 使 用 本 地 过 程 接口 来 进行 远程 
过 程 调用 。 

外 部 数据 表示 | 

在 远程 过 程 调用 中 ， 一 个 应 用 程序 (在 网 络 上 的 一 台 机 器 上 执行 ) 有 可 能 调用 网 络 上 另 一 个 不 同类 型 
的 机 器 上 的 过 程 。 例 如 ， 使 用 一 种 数据 表示 的 机 器 必须 能 够 传递 参数 给 另 一 台 机 器 ， 而 这 人 台 机 器 对 相同 的 
数据 使 用 了 另 一 种 表示 。 当 要 传递 参数 给 服务 器 时 ， 人 人生 村 二 种， 浮 点 型 、 字 符 串 、 结 构 等 类 型 ， 
必须 要 将 调用 机 器 中 使 用 的 表示 转换 成 服 LC 
务 器 可 识别 的 表示 形式 。 当 结果 从 服务 器 
上 返回 时 ， 必 须 将 结果 转换 成 客户 软件 所 
希望 的 形式 。 

这 可 以 通过 在 RPC 机 制 中 增加 一 部 分 
功能 来 进行 处 理 一 一 外 部 数据 表示 转换 机 
制 (简写 为 XDR)。 如 图 17-14 所 示 ， 客 户 
存根 使 用 XDR 转换 库 代 码 来 将 客户 机 器 内 
使 用 的 数据 表示 转换 成 特定 RPC 的 格式 。 : ede aA 
当 请 求 被 RPC 服务 器 处 理 时 ， 它 会 将 来 自 CR 
XDR 的 参数 转换 成 服务 器 计算 机 使 用 的 内 ET RRR 
部 格式 。 这 就 是 sve run () 代码 段 中 显 pc 包 包含 了 例 程 库 来 对 主机 表示 和 中 间 表 示 之 间 的 数据 
式 地 调用 sve _ getargs () 的 主要 任务 。 进行 转换 。 通 过 转换 ，RPC 可 以 避免 如 数据 的 big/little 
在 过 程 调 用 完成 后 ，svc _ run () 调用 svc _ endian 表 未 问题。 
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sendreply () 来 将 结果 转换 成 XDR， 然 后 将 结果 传 回 给 客户 。 在 返回 结果 给 客户 应 用 前 ， 客 户 存 根 软件 
使 用 XDR 转换 机 制 将 XDR 结果 转换 成 客户 机 器 格式 。 

。 Sun RPC 包 为 不 同 的 参数 类 型 提供 了 XDR 规范 。 例 如 ， 如 果 远 程 过 程 只 有 一 个 整 型 参数 ， 则 内 建 的 
XDR 函数 xdr _ int () 提供 了 XDR 转换 工具 使 用 的 必要 的 规范 。 其 他 的 内 部 XDR 规范 处 理 long, short, 
char 和 它们 的 无 符号 版 本 。 现 在 假定 远程 过 程 RP; 传 递 一 个 单个 的 字符 参数 并 返回 一 个 整 型 结果 ， 前 面 显 
示 的 客户 代码 片断 用 下 面 的 语句 形式 调用 远程 过 程 : 


/* Call RP; */ 
result = callrpc(rpc_host name, 
RPCPROG, RPCPROGVERS, RPiy 
xdr_char, &arg, xdr_int, &result); 


也 就 是 说 ，callrpc () 的 最 后 4 个 参数 描述 了 XDR 转换 说 明 。 调 用 的 一 般 形式 是 : 第 五 个 参数 为 参 
数列 表 的 XDR 规范 的 名 字 ， 第 六 个 参数 是 参数 列表 ， 同 样 ， 第 七 个 参数 指定 了 返回 值 的 XDR 规范 ， 第 八 
个 参数 是 结果 的 指针 。 

假定 你 想 要 传递 多 个 参数 或 接收 多 个 结果 ， 或 你 的 参数 并 不 是 内 建 类 型 ， 在 这 种 情况 下 ， 你 需要 写 自 
己 的 XDR 规范 。 下 面 是 来 自 Sun 文档 的 一 个 例子 。 假 定 参数 类 型 为 


struct simple | e 
int a; 
short b; 
bi 
然后 ， 通 过 定义 一 个 名 为 xdr_ simple () 的 C 函数 定义 一 个 新 的 XDR 规范 ， 代 码 段 如 下 所 示 ， 


#include <rpc/rpe.h> 


xdr_simple(XDR *xdrsp, struct simple xsimplesp) { 
if(txdr_int(xdrsp, &simplesp->a) ) 
return(0); 
if(txdr_short(xdrsp, &simplesp->b) ) 
return(0); 
return(1); 
} 


如 果 XDR 例 程 失 败 ， 则 返回 0， 否 则 返回 1。 这 个 XDR 例 程 由 如 下 的 语句 使 用 : 


/* Call RP, */ 

result = callrpe(rpc_host_name, 
RPCPROG, RPCPROGVERS, RP;, 
xdr_simple, &arg, ...); 


XDR SG TRE RS , HIN, CNA RARARAH. BE TRESHAY, Tew PR 
机 远程 过 程 调 用 程序 设计 指南 。 

存根 产生 器 : rpcgen 

callrpe () 方式 的 接口 和 许多 XDR 的 细节 决定 了 要 处 理 的 事情 非常 多 。Sun RPC 开发 商 意识 到 可 以 
使 得 RPC 更 容易 使 用 ， 于 是 他 们 创建 了 程序 设计 工具 来 产生 客户 方 和 服务 器 方 代码 。 而 且 ， 产 生 的 客户 
存根 可 以 被 给 定 一 个 传统 的 函数 名 ， 和 任何 本 地 的 函数 看 起 来 一 样 ， 但 是 在 它们 被 调用 时 ， 执 行 存根 代码 
来 进行 远程 过 程 调用 。 程 序 员 必须 写 远程 过 程 和 它们 的 参数 的 规范 ， 一 旦 写 出 规范 ，rpegen 工具 将 产生 三 
个 文件 。 

当 程 序 员 使 用 rpcgen 时 ， 将 会 自动 地 产生 三 个 文件 。 图 17-15 显示 了 这 些 文件 以 及 它们 之 间 的 相互 关 
系 。rproc.x 是 规范 文件 ， 它 的 目的 是 为 rpcgen 提供 足够 的 信息 来 让 它 产生 三 个 C 源 代码 文件 。 产 生 的 文 
件 都 根据 .x 文件 的 基文 件 名 来 进行 命名 ， 如 果 rpcgen 读 取 一 个 名 为 foobar.x 的 文件 ， 它 将 建立 名 为 foo- 
bar.h、foobar _ clnt.c 和 foobar _ svc.c 的 三 个 文件 。 这 些 文件 包含 了 C 源 代码 语句 ， 它 对 应 于 服务 器 中 
的 模板 代码 和 客户 方 的 模板 代码 (客户 存根 程序 )。 
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图 17-15 rpegen 文件 
YE: rpcgen 工具 读 取 描述 远程 过 程 原型 的 规范 文件 ， 然 后 建立 可 被 RPC 库 使 用 的 三 个 文件 框架 。 框 架 是 客户 存 
根 、 服 务 器 存根 和 两 个 存根 都 需要 的 头 文件 。 


解决 问题 
解决 这 个 问题 要 求 你 知道 Sun RPC 编程 细节 ， 背 景 部 分 提供 了 解决 问题 的 基本 信息 。 你 还 可 以 在 有 关 
的 程序 设计 指南 中 发 现 更 多 的 讨论 和 RPC 程序 设计 的 例子 ， 起 初 它 是 由 Sun 提供 的 ,但 是 现在 可 以 在 
Web 上 的 不 同 站 点 中 找到 : 
E rpcgen Programming Guide 
E Remote Procedure Call Programming Guide 
为 了 找到 这 些 文档 ， 可 以 按 programming guide 进行 搜索 。 
如 果 你 做 了 以 前 的 许多 实验 练习 ， 对 如 何 解 决 这 个 问题 你 就 会 有 好 的 想法 。 下 面 是 我 解决 这 个 问题 的 
一 般 步 又 : 
图 写 一 个 本 地 版 本 ， 不 要 使 用 远程 过 程 。 
m 使 用 一 个 内 置 XDR 类 型 来 实现 一 个 简单 的 远程 过 程 。 例 如 ， 可 以 写 openRemote (int) 的 最 原始 版 
本 ,因为 它 仅 仅 取 一 个 整 型 参数 而 不 是 一 个 字符 串 。 在 你 的 openRemote (int) 实现 中 ， 加 入 
switch 语句 来 输出 整 型 参数 。 在 它们 可 以 运行 后 ， 改 成 打开 文件 名 ( 按 整 数 变量 索引 )。 然 后 将 参 
数 类 型 改变 为 字符 串 并 完成 你 的 openRemote () 实现 。 
m 下 一 步 ， 实 现 closeRemote () 函数 ， 如 果 你 实现 了 openRemote ()， 这 将 是 很 容易 的 。 
m 最 后 ， 实 现 storeRemote () 来 完成 这 个 实验 。 在 这 一 步 中 需要 处 理 XDR。 如 果 你 已 经 知道 了 Sun 
RPC 机 制 ， 这 时 你 仅 需要 关注 XDR。 





第 18 章 “分 布 式 程序 设计 运行 时 系统 


当代 操作 系统 技术 着 重 于 为 并 发 程序 设计 提供 支持 ， 特 别 是 为 分 布 式 程序 设计 提供 支持 ， 即 让 不 同 计 
算 组 件 在 网 络 上 的 不 同 结 点 上 执行 。 现 代 操作 系统 提供 的 机 制 可 以 有 效 地 支持 分 布 式 编程 。 然 而 ， 分 布 式 
应 用 程序 员 常 常 想 要 一 个 更 抽象 的 更 易于 使 用 的 环境 。 在 操作 系统 技术 持续 发 展 的 同时 ， 编 译 器 、 程 序 设 
计 语言 和 运行 时 系统 技术 也 在 发 展 。 今 天 ,分 布 式 程序 设计 环境 常常 由 抽象 了 许多 操作 系统 机 制 的 运行 时 系 
统 来 定义 。 本 章 讨论 了 当代 分 布 式 程序 设计 运行 时 系统 的 发 展 ， 暗 示 了 它们 如 何 影响 操作 系统 新 的 发 展 。 


18.1 用 中 间 件 来 支持 分 布 式 软件 


在 第 17 章 ， 你 了 解 到 操作 系统 提供 了 不 同 的 机 制 来 支持 分 布 式 应 用 编程 。 这 些 机 制 能 有 效 地 实现 分 
布 式 应 用 ， 但 是 〈 和 许多 其 他 的 操作 系统 机 制 一 样 ) 中 间 件 提供 了 更 易于 程序 员 使 用 的 高 层 抽象 。 

这 些 抽象 通常 是 作为 库 包 的 某 种 形式 来 实现 的 ， 例 如 ， 线 程 最初 是 作为 对 语言 和 操作 系统 的 库 扩展 而 
引信 的 。 语 言 设计 者 可 以 很 方便 地 将 抽象 作为 运行 时 系统 的 一 部 分 来 实现 ， 它 与 编译 过 的 程序 一 起 使 用 。 
最 出 名 的 运行 时 系统 可 能 是 C 运行 时 库 ( 它 包含 了 像 malloc ()、free (), exit () M printf () 函数 )。 
在 第 1 章 系 统 软件 的 描述 中 ， 即 使 这 些 库 和 运行 时 系统 不 是 操作 系统 的 一 部 分 ， 但 是 它们 仍然 被 认为 是 系 
统 软件 。 

历史 上 ， 应 用 程序 设计 小 组 建立 或 影响 了 这 些 中 间 件 库 ， 这 些 年 来 ， 起 初 在 中 间 件 中 实现 的 功能 已 经 
在 操作 系统 中 实现 了 ， 线程 就 是 一 个 极 好 的 例子 。 相 反 ， 有 些 功 能 移出 内 核 并 在 中 间 件 中 实现 了 : 早期， 
位 图 图 形 和 网 络 协议 是 在 内 核 中 实现 的 ， 但 是 操作 系统 设计 者 确定 没有 必要 在 内 核 中 实现 它 ， 于 是 它 被 移 
到 了 用 户 空间 。 确 定 将 哪些 功能 在 中 间 件 实现 以 及 哪些 功能 在 内 核 中 实现 ， 这 涉及 到 主观 意见 、 实 现 操作 
系统 的 硬件 特性 以 及 对 如 何 使 用 操作 系统 的 理解 。 

本 章 偏 离 了 核心 操作 系统 主题 一 一 大 部 分 人 认为 是 操作 系统 功能 一 一 我 们 来 讨论 分 布 式 程序 设计 运行 
时 系统 。 运 行 时 系统 (runtime system) 是 提供 了 一 组 特殊 功能 的 库 。 运 行 时 系统 有 时 不 同 于 其 他 的 库 是 因 
为 它 补 充 了 程序 设计 语言 定义 。 例 如 ， 所 有 的 C 程序 设计 系统 都 依赖 于 malloc () 和 free () 提供 的 动态 
存储 分 配 。 在 当代 系统 中 ， 大 多 数 的 公开 问题 (如 什么 属于 中 间 件 以 及 什么 属于 操作 系统 ) 与 分 布 式 程序 
设计 有 关 。 

这 些 年 以 来 、 解 决 科学 问题 要 求 计算 系统 有 最 高 的 性 能 ， 这 个 问题 推动 了 分 布 式 计算 领域 的 发 展 。 在 
Web 出 现 之 前 ， 分 布 式 计算 支持 的 所 有 注意 力 都 放 在 了 用 于 解决 科学 计算 问题 的 软件 ， 它 要 求 硬件 尽 可 能 
有 最 高 的 性 能 并 且 应 用 通常 是 计算 受 限 型 的 。 

因为 公共 互联 网 已 广泛 地 用 来 支持 web 浏览 器 和 内 容 服 务 器 (WWW 环境 ) 一 种 新 的 分 布 式 软件 出 现 
了 。 这 种 新 软件 很 少 强调 高 性 能 ， 并 更 多 地 关注 于 有 效 的 内 容 (信息 ) 分 布 。 浏览 web 的 人 们 想 要 让 所 有 
的 内 容 存储 在 web 上 的 一 些 机 器 上 ， 并 且 通 过 web 浏览 器 这 些 信息 是 立即 可 用 的 。 这 意味 着 可 以 根据 web 请 
求 建立 任何 结果 信息 。 例 如 ， 对 如 “在 七 月 份 ， 销 售 员 Jones 在 底特律 卖 了 多 少 个 小 装饰 品 ?” 查 询 的 反应 。 

这 两 个 根本 上 不 同 的 应 用 域 使 用 了 许多 相同 的 分 布 式 程序 设计 技术 ， 尽 管 它们 是 作为 相互 独立 的 解决 
技术 来 发 展 的 。 在 本 章 中 ， 我 们 首先 看 一 下 传统 的 领域 ， 然 后 将 注意 力 转 到 当代 的 web 领域 。 


18.2 传统 的 分 布 式 应 用 程序 


计算 机 网 络 中 的 单个 计算 机 一 直 可 以 使 用 传统 的 顺序 进程 模型 来 执行 应 用 程序 。 如 以 前 的 章节 所 显示 
的 ， 操 作 系统 面临 的 挑战 就 是 允许 自主 的 进程 可 以 在 单 处 理 机 上 并 发 〈 但 不 是 同时 ) 执行 。 网 络 提供 了 这 
样 一 种 机 会 ， 它 可 以 将 计算 划分 成 逻辑 单元 ， 然 后 让 逮 辑 单元 在 网 络 上 的 不 同 计算 机 上 同时 执行 。 如 前 所 
述 ， 对 更 好 性 能 的 需求 或 在 个 人 计算 机 上 共享 信息 的 需要 推动 着 分 布 式 的 发 展 。 许 多 共享 问题 可 由 第 16 
章 和 第 17 章 所 描述 的 工具 来 解决 : 如 利用 远程 文件 、 网 络 存储 器 、RPC、 分 布 式 进程 /线程 管理 。 
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在 17.1 节 中 ， 加 速 比 的 思想 作为 分 布 式 计算 的 性 能 度量 被 引入 。 假 定 一 个 计算 在 一 个 单 处 理 机 上 执 
行 需 要 Ti 秒 ， 如 果 在 一 个 有 5 个 或 更 多 计算 机 的 网 络 上 执行 时 间 为 Ts = T158, 我 们 就 称 它 的 加 速 比 
(speedup) 为 5。 由 于 管理 、 同 步 以 及 通信 所 产生 的 开销 ， 几 乎 不 可 能 在 一 个 有 N 台 计 算 机 的 网 络 中 获得 
加 速 比 为 N， 尽 管 这 是 一 个 努力 的 目标 。 从 应 用 程序 员 的 角度 来 看 ， 根 本 的 问题 是 将 串 行 的 计算 划分 成 多 
个 计算 单元 ， 若 被 划分 的 N 个 单元 都 能 同时 执行 就 会 有 最 小 的 开销 。 如 果 这 种 划分 是 “完美 的 ”， 即 不 会 
有 管理 、 同 步 或 者 通信 方面 的 开销 ， 那 么 加 速 比 就 是 N。 

程序 员 如 何 划分 一 个 串 行 应 用 程序 ， 从 而 使 它 可 能 有 大 的 加 速 比 呢 ? 一 般 来 说 ， 这 是 一 个 有 挑战 的 智 
力 练习 ， 没 有 什么 固定 的 方法 。 应 用 程序 员 必 须知 道 在 计算 中 所 采用 的 算法 的 行为 、 支 持 分 布 式 的 系统 软 
件 的 行为 以 及 硬件 平台 的 特性 。 若 干 年 以 前 ， 研 究 划 分 问题 的 人 们 注意 到 了 设计 者 可 以 使 用 的 两 种 通用 方 
法 : 数据 划分 和 功能 划分 。 

在 有 些 程序 中 ， 可 以 使 用 数据 划分 来 完成 并 行 和 加 速 比 。 数 据 划分 的 思想 是 将 程序 需要 读 取 的 数据 划 
分 成 个 不 同 的 “ 流 "。 例 如 ， 设 计 顺序 程 序 使 得 它 可 以 顺序 地 读 取 记 录 ， 在 读 取 之 后 处 理 每 个 记录 ， 然 
后 为 这 个 记录 产生 输出 。 可 以 将 原始 的 数据 集 分 成 N 个 子 文件 ， 然 后 将 文件 分 配给 原来 顺序 程序 的 N 个 
不 同 的 克隆 中 的 每 一 个 〈 见 图 18-1)。 也 就 是 说 ， 在 N 个 不 同 机 器 中 执行 N 个 进程 ， 每 一 个 都 在 自己 的 地 
址 空间 内 执行 。 现 在 就 会 有 N 个 不 同 的 进程 同时 在 执行 ， 每 一 个 都 只 有 处 理 整个 数据 一 部 分 的 责任 ， 每 
个 进程 要 处 理 的 数据 被 加 载 到 它 自己 的 地 址 空间 。 如 果 进 程 在 执行 单个 记录 时 没有 交互 ， 数 据 划 分 是 特别 
有 效 的 。 如 果 一 个 进程 需要 访问 它 自己 部 分 数据 以 外 的 数据 (在 另 一 个 地 址 空间 中 ) 来 实现 功能 ， 那 么 数 
据 划分 就 变 得 复杂 了 。 

PUN, FM A RUB, RAGE C [i,j] 是 通过 取 A 中 第 ; TSB 中 第 ; 列 的 积 而 计算 得 到 的 。 
如 果 网 络 上 主机 R 中 的 一 个 进程 准备 计算 结果 中 第 i 行 的 所 有 值 ， 那 么 它 将 需要 重复 读 取 A 中 的 第 ; 行 ， 
并 且 要 读 取 B 中 的 每 一 列 。 类 似 地 ， 如 果 主 机 S 中 的 一 个 进程 准备 计算 结果 中 第 & 行 的 所 有 值 ， 那 么 它 
将 需要 重复 读 取 A 中 的 第 行 ， 并 且 要 读 取 B 中 的 每 一 列 。 这 对 于 任 一 数据 划分 都 是 不 可 能 的 〈 如 果 没 
有 拷贝 的 话 ) ， 因 为 B 必须 出 现在 主机 R 所 用 的 数据 部 分 中 ， 并 且 也 要 出 现在 主机 S 所 用 的 数据 部 分 中 。 
不 恰当 的 数据 划分 可 以 使 得 一 些 部 分 计算 被 延迟 一 定量 的 时 间 ， 使 得 整个 计算 的 加 速 比 很 差 (甚至 小 于 1)。 

图 18-2 提出 了 划分 计算 的 另 一 种 通用 的 策略 ， 即 功能 划分 。 在 功能 划分 中 ， 程 序 被 分 成 几 个 部 分 
(而 不 是 将 数据 分 成 几 个 部 分 )， 然 后 数据 在 不 同 的 部 分 间 传 递 。 你 可 以 将 这 种 策略 想像 成 将 整个 功能 划分 
成 独立 阶段 ， 然 后 逐个 记录 地 将 所 有 的 数据 传递 通过 不 同 的 阶段 。 如 果 计 算 有 条 件 控制 流 ， 那 么 一 些 数据 
记录 可 能 会 采用 与 其 他 的 记录 不 同 的 路 线 通 过 计算 部 分 。 在 任 一 种 情形 中 ， 通 过 让 不 同 功 能 阶段 如 同一 条 
流水 线 一 样 并 行 操作 而 获得 并 行 性 。 





图 18-1 数据 划分 图 18-2 功能 划分 
TE: 在 数据 划分 中 ， 输 入 数据 被 分 成 N 个 不 同 的 部 分 ， 注 : 在 功能 划分 中 ， 原 来 的 顺序 程序 被 分 成 几 个 部 分 ， 输 
每 个 部 分 分 配给 原始 顺序 程序 的 N 个 克隆 中 的 一 个 。 人 数据 根据 需要 可 以 在 每 个 部 分 间 传 递 。 
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这 种 方法 背后 的 原理 就 是 数据 管理 功能 比 计算 功能 小 得 多 ， 因 而 功能 被 划分 成 多 个 部 分 ， 使 它们 同时 
被 执行 。 功 能 划分 的 困难 在 于 使 用 之 前 必须 要 重 写 程序 。 而 且 ， 随 之 而 来 的 划分 必须 要 有 合适 的 共享 和 同 
步 机 制 。 


18.3 经典 分 布 式 程序 设计 的 中 间 件 支持 


在 经 典 的 分 布 式 应 用 程序 设计 领域 工作 的 程序 员 想 要 解决 不 同 的 科学 问题 ， 如 实验 练习 11.1 中 的 
SOR 程序 。 如 果 操 作 系统 提供 UDPZTCP， 则 应 用 程序 员 可 以 使 用 这 些 IPC 机 制作 为 解决 方法 的 基础 。 然 
而 ， 这 不 能 处 理 相关 的 进程 管理 任务 ， 如 在 另 一 台 机 器 上 建立 一 个 子 进程 。 在 20 世纪 90 年 代 ， 从 事 科学 
计算 编程 的 成 员 开始 开发 自己 的 中 间 件 库 来 完成 IPC 和 进程 管理 。 

基本 的 IPC 操作 在 第 9 章 中 讨论 了 ， 简 单 地 说 ， 消 息 就 是 进程 间 发 送 和 接收 的 信息 块 。 消 息 适合 两 种 
AR: ' 

u 它 是 一 种 显 式 的 机 制 ， 用 于 进程 间 共 享 信息 。 

E 可 用 来 同步 接收 者 与 发 送 者 的 操作 。 

接收 者 进程 必须 有 一 个 邮箱 来 缓冲 逻辑 上 还 没有 被 接收 者 接收 的 消息 。 发 送 操作 可 以 是 同步 的 ， 也 可 
以 是 异步 的 。 在 同步 操作 中 ， 发 送 者 等 待 直 到 消息 被 安全 地 发 送 到 接收 者 的 邮箱 中 。 在 异步 操作 中 ， 发 送 
者 传递 消息 并 继续 处 理 而 不 用 等 待 到 消息 实际 上 被 放 人 邮箱 中 。 接 收 操作 可 以 是 阻塞 ， 也 可 以 是 非 阻塞 。 
在 前 一 种 情况 下 ， 当 接收 者 读 一 个 邮箱 时 ， 会 阻止 接收 者 继续 执行 直到 邮箱 有 消息 可 用 。 在 非 阻塞 操作 
中 ,无 论 邮箱 有 没有 消息 ， 接 收 者 都 会 继续 处 理 。 

在 本 节 的 剩余 部 分 ， 我 们 来 看 一 下 一 些 广泛 用 来 支持 科学 计算 应 用 的 中 间 件 包 : PVM, Beowulf 和 
OSF DCE, 


18.3.1 PVM 


在 20 世纪 90 年 代 早 期 ， 使 用 最 广泛 的 机 制 是 PVM (Parallel Virtual Machine) 软件 包 [Geist and Sun- 
deram，1992]。 到 20 世纪 90 年 代 晚 期 ，PVM 的 许多 开发 商 联 合 其 他 的 开发 商 开发 了 消息 传递 接口 
(Message Passing Interface, MPI) [Gropp，et al, 1998], PVM 和 MPI 提供 了 构建 在 操作 系统 功能 之 上 的 
API， 包 括 了 网 络 消息 传递 设施 。 如 果 一 个 分 布 式 应 用 程序 员 在 PVM 之 上 实现 了 一 个 程序 ， 分 布 式 组 件 
可 以 在 大 量 不 同 的 UNIX 以 及 其 他 操作 系统 上 执行 〈 见 图 18-3)。 在 PVM 推出 后 ， 在 高 性 能 计算 领域 ， 它 
立即 得 到 了 广泛 的 使 用 ， 虽然 PVM 包 一 般 来 说 是 用 户 空间 软件 。 


实现 2 


an 


Æ 18-3 PVM 体系 结构 
HE: PVM 被 设计 成 可 移植 的 ， 它 可 以 在 许多 不 同 的 机 器 上 实现 。 因 此 ， 程 序 员 可 以 在 通过 网 络 连 接 的 一 组 异 构 
机 只 上 安装 PVM， 然 后 使 用 底层 的 TCP/UDP 实现 来 支持 可 互 操作 的 PVM 库 例 程 。 由 此 就 可 以 编写 一 个 
应 用 程序 将 计算 分 布 到 由 不 同 制造 商 制 造 的 机 器 中 ， 无 需 处 理 每 个 机 器 的 传输 层 协议 的 任何 细节 。 在 期 望 
重点 使 用 PVM 的 情况 下 ，PVM 是 作为 操作 系统 的 一 部 分 来 实现 的 。 ' 


每 个 属于 PVM 配置 的 计算 机 都 包含 了 使 用 PVM 库 的 应 用 程序 。 库 函数 使 用 本 地 操作 系统 进程 管理 设 
施 来 建立 和 管理 PVM 进程 。 一 个 PVM 任务 (task) 是 一 个 可 调度 的 计算 单位 ， 它 由 并 行 虚拟 机 一 一 PVM 
来 执行 。 为 了 把 任务 与 并 行 虚拟 机 关联 起 来 ， 每 个 PVM 任务 必须 执行 pm_mytid O 调用 ,该 调用 会 返 
回 一 个 任务 标识 号 。 可 以 通过 pwm_gettid O 调用 来 获得 其 他 使 用 并 行 虚拟 机 任务 的 任务 标识 号 。 一 个 
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任务 可 以 通过 使 用 pvm_spawn () 创建 另 一 个 任务 并 且 使 用 pvm_ exit () 结束 自己 。 一 组 任务 可 以 通过 使 
用 pym_joingroup () 调用 加 入 一 个 逻辑 组 ， 被 作为 兄弟 看 待 ; 一 个 任务 也 可 以 使 用 pwm_ lvgroup () 来 取消 
组 成 员 身 份 。 你 可 以 看 到 ，PVM 导出 了 一 组 完整 的 任务 管理 函数 。 

PVM 也 包含 有 同步 调用 ， 包 括 传统 的 signal () (相当 于 V 操作 ) Await O (相当 于 了 操作 ) 调 
FA. PVM 库 中 使 用 TCPAP 协议 实现 了 一 个 等 价 的 信号 量 ， 好 像 使 用 共享 存储 器 的 信号 量 一 样 。 

PVM 消息 包含 有 多 组 有 类 型 的 数据 。 一 个 要 发 送 的 任务 使 用 pvm _ initsend() 调用 来 初始 化 消息 组 
冲 ， 使 用 打包 例 程 将 有 类 型 的 数据 放 到 消息 缓冲 中 。 在 下 面 的 例子 中 ，pvm _ pkirt () 被 用 于 放置 一 个 整 
数 到 一 个 消息 中 ， 接 收 者 使 用 prm_ upin () 从 消息 缓冲 中 再 获得 数据 。 一 旦 一 个 要 进行 消息 发 送 的 任 
务 已 经 填 满 了 它 的 消息 缓冲 ， 它 就 使 用 消息 标识 号 通过 pvm _ send ()、pvm _ multicast O 或 者 pvm _ 
broadcast () 操作 发 送 缓冲 内 容 给 另 一 个 任务 。 使 用 pvm _ recv () 操作 来 接收 消息 ， 消 息 被 放 到 接收 者 
缓冲 中 ， 在 其 中 使 用 unpack 命令 集 来 解 包 数据 并 将 值 放 到 相应 的 局 部 变量 中 。 

图 18-4 和 图 18-5 中 所 示 是 PVM 3.3 文档 中 一 个 例子 的 片断 [Geist et al., 1994], SPMD 是 一 种 分 布 
式 计 算 模 式 ， 意 思 是 几 个 进程 在 多 个 数据 流 (“MD”) 上 执行 同一 个 过 程 (“SP”) 。 在 一 组 PVM 主机 中 的 
每 个 主机 都 执行 图 中 所 示 的 代码 ， 代 码 实现 从 一 个 主机 传送 令 牌 到 另 一 个 主机 中 。 





#define NPROC 4 . 
#include <sys/types.h> 
#include “pvm3.h” 


main() { 
int mytid; /* my task id */ 
int tids[{[NPROC]; /* array of task id */ 
int me; /* my process number */ 
int i; 
mytid = pvm mytid(); /* enroll in pvm */ 


/* Join a group; if first in the group, create other tasks */ 
me = pvm_joingroup(“foo”); 
if(me == 0) 
pyvm_spawn(“spmd”, (char**)0, 0, “”, NPROC-1, &tids[1]); 
/* Wait for everyone to startup before proceeding. */ 
pyvm_barrier(“foo”, NPROC); 


dowork(me, NPROC); 
/* program finished leave group and exit pvm */ 
pvm_lvgroup{”foo"); 
pvm exit(); 
exit(1); 
} 











图 18-4 在 PVM 主 程序 中 的 SPMD 计算 
È: PVM 主 程序 被 参与 SPMD 计算 的 每 台 机 器 所 执行 。 代 码 确定 进程 PVM ID， 加 入 一 个 组 ， 然 后 在 一 个 barrier 
同步 点 等 候 NEROC 个 不 同 的 进程 加 入 到 组 中 。 然 后 调用 dowork () 函数 来 进行 演示 计算 (图 18-5 所 示 )。 


PVM 定义 了 一 个 抽象 的 “并 行 虚拟 机 ”， 它 可 以 在 支持 TCP/UDP/IP 的 各 种 UNIX 系统 上 实现 。 当 
一 个 应 用 程序 使 用 PVM 库 时 ， 与 直接 在 操作 系统 上 进行 并 行 编程 的 情形 相 比 ， 性 能 可 能 会 比较 低 。 然 而 ， 
. PVM 提供 的 功能 适合 于 科学 计算 方面 的 编程 ， 所 以 人 们 不 用 了 解 操 作 系 统 原 语 的 细节 。 在 许多 情况 下 ， 
科学 家 十 分 乐意 编写 并 行 代码 ， 即 使 它 并 不 能 利用 底层 硬件 的 所 有 性 能 。 


18.3.2 Beowulf 集群 计算 环境 


在 1994 年 ， 由 Sterling 和 Becker 领导 的 Beowulf 项 目 ， 利 用 一 组 通过 以 太 网 技术 互 连 的 微 处 理 器 来 构 
建 一 个 多 处 理 器 一 一 集群 计算 机 [Becker，et al.，1995]。 像 PVM 项 目 一 样 ， 这 个 项 目 是 根据 通过 并 行 来 
支持 高 性 能 计算 的 需求 来 开发 的 。 这 个 系统 是 并 行程 序 员 在 Goddard Space 飞行 中 心 开发 的 ， 是 用 来 解决 
地 球 和 空间 科学 问题 的 〈 它 并 不 是 系统 研究 项 目 )。Beowulf 开发 者 称 他 们 自己 是 “万 事 不 求人 的 人 ”。Be- 
owulf 计算 机 是 如 此 成 功 ， 使 得 这 个 团体 中 的 其 他 研究 人 员 决 定 采用 这 种 方案 并 构建 它 自己 的 “Beowulf 类 
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集群 计算 机 ”( 见 http; /Avww. beowulf. org/intro. html )。 
Beowulf 不 同 于 工 作 站 网 络 (NOW ) dowork(int me, int nproc) { | 














研究 系统 ， 后 者 也 是 使 用 独立 的 机 器 通过 int ton ts 
以 太 网 互 连 而 成 [ Anderson, et al., int count = 1; 
1995], NOW 是 在 具有 普通 工作 站 的 传统 int Se = y 
网 络 上 运行 的 。 当 工作 站 不 被 它们 的 所 有 . 
者 用 户 使 用 时 ，NOW 使 用 工作 站 资源 。 | (7 Determine neighbors in the ring */ 
这 意味 着 NOW 的 主要 作用 是 确定 工作 站 dest= pym_gettid(“foo”, me+1); 
HY sR LARA DANTE A, | itae T= 0) ae = Raetian poen 
在 Beowulf 中 ， 所 有 的 机 器 都 供 集 群 计 算 ime == oi 
机 使 用 。 pum ini sen vmDataDefault); 
Beowulf 硬件 是 通过 以 太 网 技术 互 连 的 Dla count, stride); 
标准 硬件 ， 利 用 硬件 ， 它 可 以 解决 高 性 能 PSone (Soar mesvagn, 
计算 问题 , 但 挑战 是 找到 一 组 合适 的 软件 printf(“token ring done\n”); 
来 支持 分 布 式 应 用 执行 。 就 像 Beowulf BL) ON ere, magtag); 
计 者 在 设计 硬件 时 发 挥 了 极 大 的 主观 能 动 pym_upkint (&token, count, stride); 
性 一 样 ， 他 们 使 用 了 相同 的 方法 来 构建 分 pumpkine(etoxen, count, stride); 
布 式 程序 设计 环境 。Beowulf 设计 者 使 用 不 pvm send(dest, msgtag); 
同 的 免费 软件 包 来 建立 环境 , 包括 Linux, |, ? 
PVM、MPI 和 GNU 软件 。 一 
第 一 个 Beowulf 计算 机 是 使 用 DX4 处 图 18-5 在 PVM 中 SPMD 的 dowork 函数 
理 器 和 10 Mbps 以 太 网 来 构建 的 ， 这 些 处 。” 注 : dowork O 函数 确定 哪个 进程 是 它 的 邻居 ， 从 一 个 较 小 的 
理 器 比 网 络 快 ， 开 发 者 创建 了 这 样 一 种 技 ID 号 邻居 处 读 取 令 牌 ， 然 后 发 送 令 牌 给 较 大 ID 号 邻居 。 


术 : 他 们 使 用 了 两 个 以 太 网 ， 每 一 个 承担 一 半 的 传输 负载 。 由 此 他 们 要 做 一 些 扩展 的 设备 驱动 程序 开 
发 一 一 显然 Linux 很 适合 这 样 做 。 当 100Mbps (和 1Gbps) 的 以 太 网 出 现时 ，Beowulf 集群 放弃 了 旧 的 以 太 
网 ， 更 偏向 于 利用 单个 的 高 速 以 太 网 。 网 络 驱动 程序 也 是 Beowulf 方案 的 一 个 关键 部 分 ， 这 些 开发 人 员 对 
Linux 的 驱动 开发 作出 了 极 大 的 贡献 。 

开发 Beowuli 的 程序 员 对 PVM 和 那 时 出 现 的 MPI 包 是 十 分 熟悉 的 ， 他 们 在 其 他 计算 机 平台 之 上 使 用 
了 这 些 机 制 ， 并 将 它 作为 并 行 /分 布 式 程序 设计 支持 的 基础 。 因 此 ， 在 Beowulf 中 使 用 PVM/MPI 作为 分 布 
式 进程 管理 方法 的 基础 是 很 自然 的 。 

Beowulf 项 目 聚 集 了 一 批 想 要 建立 他 们 自己 的 计算 机 集群 的 人 们 。 通 过 构建 一 个 简单 的 分 布 式 硬件 平 
台 ， 着 重 于 网 络 驱动 程序 开发 ， 利 用 Linux 环境 ,使 用 PVM/MPI 接口 ， 就 可 以 构建 和 使 用 一 个 便宜 的 但 
是 非常 有 效 的 高 性 能 集群 计算 机 环境 。 


18.3.3 OSF 分 布 式 计 算 环 境 


在 20 世纪 80 年 代 期 间 ， 在 两 个 主流 的 UNIX 版 本 间 (BSD UNIX 和 AT&T System III/V UNIX) 存 
在 着 持续 的 竞争 。Sun 公司 采用 BSD UNIX 作为 它 的 操作 系统 ， 所 以 竞争 主要 是 在 Sun 和 AT&T 间 进行 。 
1988 年 ，Sun 和 AT&T 对 这 两 个 版 本 的 竞争 达成 了 一 致 的 协议 ， 导 致 了 Sun Solaris 的 出 现 。 开 放 软 件 基 
ER (OSF) 在 20 世纪 80 年 代 晚期 形成 ， 它 是 针对 Sun-AT&T 协 议 的 ， 它 是 支持 开放 的 UNIX 版 本 思想 
的 计算 机 制造 商 同盟 (在 1995 年 ，OSF 与 另 一 个 名 为 X/Open 的 开放 软件 联盟 合并 形成 Open Group) K 
了 对 UNIX 版 本 的 兴趣 外 ，OSF 也 支持 分 布 式 应 用 程序 设计 。 

OSF 建立 了 一 个 统一 的 中 间 件 包 ， 支 持 分 布 式 计算 ， 称 为 分 布 式 计算 环境 (Distributed Computing En- 
vironment, DCE) [Open Group，2003]。DCE 被 不 同 操作 系统 所 支持 ， 包 括 OSF 自己 的 操作 系统 ( 称 为 
OSF/1). PVM 主要 是 由 高 性 能 科学 计算 小 组 支持 开发 的 ,而 DCE 是 由 商业 操作 系统 群体 建立 的 。 像 Be- 
owulf 一 样 ，DCE 是 结合 一 组 独立 的 开放 源码 技术 建立 的 ， 而 不 是 作为 一 组 全 新 的 功能 建立 的 。 

OSF DCE 反映 了 用 于 高 性 能 计算 的 分 布 式 程序 设计 运行 时 支持 的 技术 发 展 水 平 。 同 PVM 一 样 ，DCE 
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被 设计 来 支持 异 构 网 络 、 异 构 计 算 机 和 操作 系统 。 程 序 员 的 目标 就 是 使 用 DCE API 来 写 分 布 式 软件 ， 然 
后 让 软件 在 OSFA, BAER UNIX 上 以 及 包含 DCE 包 的 任何 其 他 操作 系统 上 运行 。 程 序 员 可 以 忽略 
计算 机 的 类 型 和 在 操作 系统 下 层 的 网 络 。 

DCE 应 用 一 般 是 客户 程序 ， 它 从 分 布 式 基础 设施 中 请 求 服务 。 应 用 程序 是 作为 一 组 DCE 线程 来 实现 
的 ， 这 些 线程 使 用 内 置 的 RPC 协议 来 与 远程 机 器 上 的 服务 器 进行 通信 。DCE 中 间 件 是 作为 运行 在 本 地 客 
户 机 器 操作 系统 上 的 一 组 库 例 程 实现 的 一 一 如 果 服 务 在 本 地 可 用 ， 就 在 本 地 提供 服务 ; 如 果 服 务 可 从 远程 
机 器 上 获得 ， 就 通过 客户 存根 使 用 。 远 程 服务 可 由 DCE 提供 ， 其 他 的 可 由 应 用 程序 提供 。 内 置 的 DCE AR 
务 是 : 

E 分 布 式 文件 服务 

a 用 于 用 户 认证 和 资源 访问 授权 的 安全 服务 

E 在 分 布 式 环境 中 的 命名 和 定位 资源 的 目录 服务 

u 用 于 在 网 络 上 同步 时 钟 的 时 间 服 务 

应 用 服务 是 由 DCE 程序 员 定义 的 ， 下 一 步 ， 我 们 将 讨论 DCE 机 制 和 内 置 的 服务 。 

线程 

线程 是 DCE 的 计算 调度 单位 ， 线 程 包 由 POSIX3.4 标准 定义 ， 它 可 以 作为 库 或 用 内 核 支持 来 实现 〈 这 
是 不 同 的 UNIX 系统 ， 包 括 Linux 和 FreeBSD 中 使 用 的 主要 线程 包 )。 在 DCE 被 定义 时 ， 大 多 数 的 底层 操 
作 系 统 平台 是 只 支持 单线 程 进程 的 UNIX 系统 。 这 意味 着 一 个 应 用 是 作为 单个 传统 进程 来 执行 的 ， 它 在 库 
代码 的 控制 下 被 用 户 空间 线程 复 用 。 操 作 系 统 内 核 没 有 意识 到 进程 可 能 是 多 线程 的 ， 因 为 从 内 核 的 视图 来 
看 ， 复 用 进程 的 线程 对 内 核 完 全 不 可 见 。 

用 户 空 间 线程 会 很 好 地 工作 ， 除 非 进 程 中 的 某 个 线程 阻塞 。 当 一 个 线程 阻塞 时 ， 进 程 会 阻塞 ， 这 意味 
着 进程 内 的 所 有 线程 都 会 阻塞 。 这 是 促使 内 核 线程 一 线程 由 内 核 管理 而 不 是 由 用 户 空间 代码 管理 一 -发 
展 的 一 个 主要 因素 。 在 内 核 线程 机 制 下 ， 操 作 系统 调度 器 会 直接 分 配 处 理 给 线程 而 不 是 进程 ， 这 意味 着 进 
程 中 的 一 个 线程 阻塞 时 ， 不 会 阻塞 进程 中 的 其 他 线程 。 

DCE 的 线程 实现 至 少 支持 用 户 级 线程 ， 但 是 有 内 核 线程 支持 就 更 好 。 今 天 ，POSIX 线程 包 的 许多 实 
现 使 用 了 内 核 线程 而 不 是 只 有 库 实 现 。 当 然 ， 那 也 是 在 DCE 的 早期 使 用 POSIX 线程 的 原因 : 程序 使 用 
POSIX 接口 来 编写 ， 因 此 ， 程 序 不 用 修改 就 可 以 从 原来 使 用 用 户 线程 转 到 使 用 内 核 线程 。 

远程 过 程 调用 

DCE 分 布 式 应 用 使 用 RPC 来 进行 进程 间 通 信 ，RPC 模型 一 般 符合 17.3 节 的 讨论 以 及 图 17-8 的 概述 。 
客户 对 它 调用 的 每 个 远程 过 程 都 配置 有 一 个 客户 存根 ， 服 务 器 存根 是 服务 器 方 的 主 程序 。RPC 服务 器 首先 
启动 ， 它 利用 命名 服务 来 注册 远程 过 程 ， 然 后 等 待 客户 调用 过 程 。 所 有 的 客户 存根 被 链接 到 客户 线程 使 用 
的 地 址 空间 中 (好 像 它 们 是 正常 的 本 地 过 程 )。RPC 过 程 处 理 如 下 : 

© 当 线 程 调用 远程 过 程 时 ， 它 实际 调用 的 是 客户 存根 。 

u 客 户 存根 查找 实现 目标 过 程 的 远程 过 程 服务 器 。 | 

B 在 DCE 中 ， 客 户 在 全 局 名 字 空 间 中 搜索 远程 过 程 ， 全 局 名 字 空 间 是 由 管理 员 定 义 的 地 址 单元 (cell) 

或 一 组 主机 所 指定 的 。 

n 存根 将 参数 编码 然后 将 它们 发 送 到 远程 过 程 服务 器 。 

u 客户 存根 然后 阻塞 ， 等 候 来 自 服务 器 的 响应 。 

B 远程 过 程 服务 器 通常 等 待 客户 调用 。 

© 当 调用 到 达 时 ， 远 程 过 程 服务 器 解码 参数 然后 使 用 它们 调用 目标 过 程 。 

B 当 过 程 返回 到 服务 器 存根 代码 时 ， 它 对 返回 结果 进行 编码 ， 然 后 将 它们 返回 给 正在 等 待 的 客户 存根 。 

B 客户 存根 解码 结果 然后 将 它们 返回 给 调用 代码 。 

DCE RPC 提供 了 一 组 工具 ， 可 以 使 程序 员 产生 客户 和 服务 器 存根 以 及 指定 过 程 和 参数 的 细节 (Sun 
RPC 也 这 样 做 了 ， 如 实验 练习 17.1 所 解释 的 )。 它 也 提供 了 灵活 的 方法 来 使 用 这 种 机 制 ， 例 如 ， 使 得 两 个 
不 同 的 客户 同时 可 以 调用 相同 的 远程 过 程 服务 ， 或 使 客户 可 以 取消 一 个 正在 处 理 (但 是 没有 完成 ) 的 远程 
过 程 。 
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远程 RPC 服务 器 是 使 用 监听 一 服务 器 模式 构建 的 ( 见 图 15-19)。 这 意味 着 客户 存根 与 远程 过 程 服务 
器 接触 ， 远 程 过 程 服务 器 可 以 将 一 个 客户 与 服务 器 上 的 一 个 监听 线程 相连 接 。 在 这 种 方式 下 ,服务器 可 以 
支持 多 个 并 发 的 调用 ， 每 个 调用 有 自己 的 监听 服务 器 线程 。 

在 产品 级 的 分 布 式 软件 环境 中 ， 为 了 更 新 一 个 特定 的 远程 过 程 ， 整 个 系统 不 能 停止 工作 。 尽 管 更 新 的 
过 程 可 以 修补 bug， 但 是 它 也 会 改变 参数 特征 或 原来 过 程 的 语义 ， 因 此 ，RPC 系统 支持 每 个 远程 过 程 调用 
可 有 多 个 版 本 。 每 个 远程 过 程 有 相关 的 主 版 本 号 和 次 版 本 号 ， 当 一 个 客户 调用 远程 过 程 时 ， 它 必须 提供 目 
标 过 程 的 版 本 号 来 确保 调用 恰当 的 一 个 。 这 些 版 本 号 信息 在 注册 时 被 保存 到 命名 服务 器 中 。 

参数 数目 和 类 型 是 过 程 定义 的 一 部 分 ， 进 行 调 用 和 被 调用 的 过 程 必须 就 参数 列表 的 特征 达成 一 致 。 在 
ANSI C 中 ， 函 数 原型 用 来 定义 过 程 签 名 : 过 程 名 、 参 数 数目 以 及 每 个 参数 的 类 型 。DCE 并 不 假定 所 有 的 
程序 都 是 用 C 语 言 写 的 。 用 一 种 语言 写 的 客户 程序 可 以 调用 用 另 一 种 语言 写 的 远程 过 程 。 这 意味 着 过 程 接 
口 规范 是 语言 无 关 的 。 它 由 RPC 包 中 的 一 个 工具 来 产生 。 这 个 工具 的 输出 是 头 文件 、 客 户 存根 和 服务 器 
存根 。 客 户 存根 与 客户 应 用 代码 相 结合 ， 服 务 器 存根 与 远程 过 程 相 结合 ， 这 样 形成 了 运行 时 系统 。 

分 布 式 文件 

DCE DFS 是 从 Andrew 文件 系统 一 一 AFS ( 见 16.4 节 ) MMA. DFS 是 由 HP、IBM、Locus Com- 
puting 和 Transarc [Kazar, etal., 1990] 联合 开发 的 。AFS/DFS 使 用 文件 缓冲 方法 ， 这 意味 着 当 一 个 客户 
打开 文件 时 ,文件 被 拷贝 (缓冲) 到 客户 端 。 如 果 客 户 有 足够 的 主 存 ， 文 件 被 保持 在 主 存 中 ， 和 否则 ， 它 被 
拷贝 到 客户 机 的 辅 存 中 。 在 远程 文件 服务 器 的 实现 中 ， 文 件 管理 器 的 大 部 分 在 服务 器 方 ， 相 对 较 少 的 功能 
在 客户 方 实现 。 客户 

因为 AFS/DFS 使 用 文件 缓冲 ， 它 必须 处 理 文件 一 致 性 。 除 
了 在 16.4 节 描 述 的 不 变 的 文件 版 本 外 ， 它 为 文件 一 致 性 保证 提 
供 了 一 种 机 制 。 当 文件 的 拷贝 被 缓冲 到 不 止 一 个 客户 ， 并 且 其 中 
一 个 客户 更 新 了 它 时 ， 则 这 些 版 本 中 会 出 现 不 一 致 的 情况 。AFS/ 
DFS 使 用 令 牌 来 管理 这 些 不 一 致 性 : 令 牌 表示 在 一 个 缓冲 文件 
(共享 文件 ) 上 执行 某 个 操作 的 权限 。 例 如 ， 令 牌 可 以 允许 客户 
访问 文件 描述 表 和 目录 信息 ， 可 以 让 令 牌 对 文件 的 一 部 分 进行 加 
锁 。 当 一 个 客户 想 要 执行 受 保护 的 操作 时 ， 它 必须 从 服务 器 获得 
相应 的 令 牌 。 

客户 应 用 软件 使 用 POSIX.1 系统 调用 来 访问 远程 文件 ， 如 果 
操作 系统 遵循 于 POSIX.1， 则 对 DFS 和 本 地 操作 系统 文件 管理 器 
调用 没有 差别 ， 和 否则， 应 用 程序 员 为 了 本 地 调用 需要 使 用 本 地 操 
作 系 统 调用 接口 ， 而 使 用 DFS POSIX.1 调用 操作 远程 文件 ( 见 
图 18-6)。 

客户 使 用 RPC 机 制 来 与 服务 器 交互 ， 因 此 在 客户 方 文件 管 
理 器 系统 调用 是 用 存根 来 表示 的 。 客 户 方 的 另 一 个 重要 任务 是 管 
理应 用 软件 打开 的 文件 的 缓冲 副本 。DFS 客户 模块 中 的 缓冲 管理 
器 (Cache Manager) 就 是 处 理 这 种 任务 的 。 当 文件 被 打开 时 ， 绥 
冲 管理 器 在 本 地 缓冲 (本 地 的 存储 设备 ) 中 进行 查找 ， 确 定 文件 
拷贝 是 否 已 加 载 到 客户 机 器 中 。 如 果 有 一 个 拷贝 ， 应 用 就 使 用 这 








个 拷贝 。 如 果 没 有 拷贝 ， 缓 冲 管理 器 向 服务 器 发 请 求 。 图 18-6 DCE 分 布 式 文件 系统 
客户 方 软件 可 以 作为 中 间 件 来 实现 ，DFS 服务 器 必须 在 用 户 注 : DCE DFS 客户 端 包 含 了 一 个 缓冲 
和 核心 空间 中 实现 。 在 文件 访问 级 ，AFS/DFS 使 用 Sun vnodes 和 管理 器 来 管理 文件 拷贝 ， 如 果 绥 
虚拟 文件 开关 (VFS) 见 16.3 节 。 这 意味 着 AFS/DFS 有 一 冲 管理 器 确定 文件 就 在 缓冲 中 ， 
个 首选 的 文件 系统 (在 图 18-6 中 称 为 本 地 文件 系统 )， 尽 管 它 也 就 可 以 避免 文件 拷贝 。 客 户 可 以 
可 以 安装 其 他 类 型 的 文件 系统 。VFS+ (意味 着 Sun VFS 加 上 作为 用 户 空间 代码 来 实现 ,文件 


DFS 的 扩展 ) 实现 了 服务 器 方 文件 管理 器 的 文件 系统 无 关 部 分 。 服务 器 需要 特权 模式 。 
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本 地 文件 系统 实现 了 文件 管理 器 的 文件 系统 相关 部 分 。 其 他 类 型 文件 系统 也 可 在 服务 器 上 实现 ， 这 是 通过 
增加 本 地 文件 系统 模块 而 实现 的 ，VFS 被 设计 成 适 于 添加 各 种 文件 系统 。 

文件 输出 器 (File Exporter) 是 RPC 的 服务 器 存根 ， 客 户 发 出 的 每 个 RPC 由 文件 输出 器 来 实施 ， 它 将 
调用 自己 的 过 程 文件 管理 器 系统 函数 ) 来 执行 客户 发 出 的 命令 。 文 件 输出 器 函数 调用 VFS+ (底层 的 文 
件 系统 模块 ) 的 函数 来 执行 文件 管理 操作 。 

令 牌 使 客户 和 服务 器 可 以 实现 与 UNIX 文件 管理 器 有 相同 的 文件 访问 语义 的 文件 管理 器 。 这 意味 着 由 
于 客户 的 行为 引起 文件 数据 不 一 致 性 ， 令 牌 管理 器 必须 阻止 这 种 情况 发 生 。 它 是 通 过 检查 可 能 违反 UNIX 
语义 的 客户 请 求 来 完成 的 。 令 牌 管理 器 作为 临界 区 处 理 这 些 操作 来 确保 一 致 性 操作 。 令 牌 管理 器 并 非 简单 
地 实现 一 组 信号 量 ， 令 牌 管理 器 分 配 一 个 令 牌 给 客户 ， 人 允许 客户 改变 一 个 文件 或 目录 。 当 客户 完成 操作 
时 ， 令 牌 管理 器 会 收回 令 牌 并 把 它 分 配给 另 一 个 客户 。 

DFS 服务 器 也 提供 了 一 些 其 他 的 服务 。 一 般 来 说 ， 这 些 服务 与 文件 系统 管理 有 关 ， 例 如 ， 处 理 文件 系 
统 分 区 ( 称 为 DFS 文件 集 )、 管 理 服务 器 线程 、 监 控 性 能 等 。 l 

安全 

DCE 的 安全 机 制 取得 了 极 大 的 成 就 ， 其 设 和 解决 了 第 14 章 所 描述 安全 机 制 的 三 个 方面 : 认证 、 授 权 和 
加 密 。 在 DCE 的 设计 中 ， 假 定 是 通过 让 客户 和 服务 器 交互 来 达到 分 布 的 。 在 提供 了 安全 的 分 布 式 环境 中 ， 
引 人 了 安全 服务 器 来 实现 许多 机 制 。 另 外 ， 管 理 员 假定 是 在 第 四 个 网 络 站 点 来 定义 保护 策略 的 〈 见 图 18-7). 


客户 应 用 服务 器 


认证 





管理 员 


一 客户 -服务 器 信息 
> DCE 安 全 信息 


安全 服务 器 


图 18-7 DCE 安全 组 件 
注 : DCE 保护 机 制 处 理 认 证 、 授 权 和 和 加密。 注册 服务 是 用 来 定义 安全 策略 的 管理 员 的 机 制 ， 认 证 服务 是 Ker- 
beros， 具 有 登录 认证 。 


安全 服务 器 中 的 注册 服务 (Registry service) 管理 信 元 级 安全 策略 ， 人 性 化 的 管理 接口 被 设计 用 于 安 
全 地 与 注册 程序 交互 ， 来 建立 和 维护 想 要 的 策略 规范 。 在 第 14 章 的 术语 中 的 主体 在 DCE 中 被 称 为 负责 人 
(principal) ， 安 全 数据 库 为 每 个 负责 人 包含 了 一 个 条 目 ， 用 来 保持 所 有 与 负责 人 相关 的 信息 〈 例 如 ， 加 密 
密 钥 和 认证 信息 )。 它 也 为 信 元 维持 一 般 的 安全 信息 。 

认证 服务 (Authentication service) 是 Kerberos 认证 系统 (I 14.2 节 )。Kerberos 使 用 私有 密 钥 加 密 来 
在 不 可 信 网 络 上 为 客户 和 服务 器 建立 安全 的 连接 。 例 如 , 在 IP 网 络 层 建立 一 个 安全 的 连接 ， 人 侵 者 可 以 
通过 网 络 截获 到 所 有 的 信息 ， 但 是 他 不 能 解释 这 些 信 息 。--- 旦 客户 和 服务 器 彼此 信任 ,它们 就 可 以 交换 加 
密 的 信息 直到 会 话 结束 。 
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认证 服务 依赖 于 客户 端 能 够 认证 它 的 用 户 ， 客 户 机 器 上 的 登录 服务 负责 认证 启动 客户 应 用 的 用 户 。 用 
户 认证 可 以 通过 登录 /密码 对 来 完成 。 一 旦 用 户 通过 了 认证 ,信息 就 会 以 加 密 的 形式 在 应 用 客户 端 和 服务 
器 端 之 间 进 行 传输 。 

回忆 一 下 所 有 的 客户 - 服务 器 使 用 RPC 来 进行 交互 ， 由 RPC 机 制 来 激发 认证 服务 ， 包 括 Kerberos 会 
话 初 始 化 。RPC 机 制 也 实现 了 加 密 和 解密 来 作为 通常 的 命令 /结果 传输 功能 的 一 部 分 。 

应 用 服务 可 以 确定 哪个 客户 被 授权 来 使 用 这 个 服务 ， 这 可 以 通过 访问 控制 列表 (ACL) 来 完成 ( 见 
14.349). ACL 服务 可 以 在 任何 服务 器 上 实现 。 

网 络 目录 

从 一 开始 ，DCE 就 打算 支持 大 型 网 络 上 的 大 规模 分 布 计算 。 在 这 种 类 型 的 环境 中 ， 很 难为 线程 来 定位 
资源 : 网 络 上 的 机 器 、 文 件 、 服 务 。 开 发 人 员 若 干 年 前 就 意识 到 这 个 问题 ， 在 1988 年 ， 发 布 了 X.500 目 
录 服 务 草案 标准 的 第 一 版 (规格 的 第 四 版 在 2001 年 发 布 )。X.500 定义 了 工具 的 扩展 集 。DCE 网 络 目录 服 
务 使 用 义 .500 目录 服务 ,更 具体 地 说 ， 是 义 .500 的 LDAP FÆ, 

网 络 目录 服务 基于 域 一 一 在 RPC 讨论 中 涉及 到 的 信 元 。 粗 略 地 说 ， 信 元 是 用 在 分 布 式 计算 下 的 网 络 
资源 管理 集 。RPC 可 用 来 在 信 元 内 产生 过 程 调用 ， 以 及 分 布 式 文件 可 在 信 元 范围 内 来 访问 。 信 元 也 定义 了 
安全 策略 的 范围 。 信 元 目录 服务 (Cell Directory Service) 是 客户 在 信 元 内 查询 资源 的 服务 。 全 局 目录 服务 - 
提供 了 一 种 手段 用 来 在 必要 时 跨越 信 元 ， 但 是 默认 操作 是 在 一 个 信 元 内 。 

在 信 元 内 ， 每 个 资源 有 一 个 唯一 的 DCE 名 ， 每 个 信 元 名 在 所 有 的 DCE 信 元 名 空间 中 是 唯一 的 。 在 远 
程 信 元 中 的 资源 可 以 使 用 信 元 名 以 及 内 部 信 元 名 来 访问 ， 实 际 的 名 字 比 这 个 更 复杂 一 些 ， 但 是 重要 的 思想 
是 : 有 些 信 元 目录 服务 使 用 了 信 元 内 的 一 些 名 字 ， 而 更 一 般 的 名 字 是 被 全 局 目录 服务 用 于 访问 远程 信 元 内 
的 资源 。 

X.500 目录 访问 协议 (DAP) 用 来 访问 目录 服务 器 来 找到 资源 。DAP 提供 了 用 户 接口 ， 允 许 用 户 自己 
构建 目录 服务 查询 。DAP 是 运行 在 TCPZIP 之 上 的 高 级 协议 。 

轻 权 DAP (LDAP) 是 作为 DAP 的 一 个 简化 版 本 发 展 起 来 的 ， 它 所 需 的 客户 机 资源 比 DAP 更 少 。 在 
20 世纪 90 年 代 期 间 ，LDAP 作为 执行 X.500 目录 服务 查询 的 协议 很 快 流行 起 来 了 ， 它 不 用 承受 支持 DAP 
客户 那样 大 的 开销 。 今 天 ，LDAP 广泛 地 用 在 桌 上 型 电脑 上 ， 尽 管 任何 现代 的 桌面 计算 机 有 足够 的 资源 来 
支持 DAP 客户 实现 。LDAP 现在 也 广泛 地 使 用 在 资源 有 限 的 移动 计算 机 中 。 

时 间 服 务 . 

“分 布 式 软件 组 件 常常 需要 根据 一 些 绝对 的 测量 方法 〈 如 时 间 的 流逝 ) 来 进行 同步 。 例 如 ， 假 定 计算 的 
正确 操作 取决 于 以 下 约定 : 机 器 X 上 的 事件 R 在 机 器 Y 上 的 事件 S 之 前 发 生 。 此 处 的 关键 要 素 是 确定 事 
件 R 发生 的 时 间 是 否 要 比 事件 S 早 。 这 个 问题 在 单 处 理 机 系统 上 很 容易 解决 ， 因 为 很 容易 观察 出 事件 R 
发 生 的 时 间 和 事件 S 发 生 的 时 间 ， 然 后 对 这 两 个 时 间 进 行 对 比 。 在 计算 机 网 络 中 ， 则 有 一 些 困难 。 

当 事 件 R 发 生 时 ， 它 使 用 机 器 X 中 的 时 间 ， 但 是 当 事 件 S 发 生 时 ， 它 使 用 机 器 Y 中 的 时 间 。 怎 样 确 
保 两 个 机 器 上 的 时 钟 是 同步 的 呢 ? 即使 两 个 机 器 的 时 钟 在 某 个 时 候 同步 了 ， 如 在 一 个 小 时 结束 时 ， 它 们 的 
时 钟 在 下 一 个 小 时 内 也 会 出 现 偏差 。 如 果 机 器 X 上 的 时 钟 丢失 了 时 间 (如 一 个 小 时 仅 计 了 59 分 59 秒 )， 
机 器 Y 多 得 了 时 间 (在 一 个 小 时 内 计 了 60 分 1 秒 ) ， 我 们 便 不 能 确定 事件 R 是 否 实际 在 事件 S 之 前 发 生 。 

DCE 时 间 服 务 为 网 络 上 的 计算 机 提供 了 一 种 管理 时 间 的 手段 : 

里 有 一 种 周期 性 地 同步 所 有 主机 的 时 钟 的 方式 。 这 确保 了 不 同 主机 上 的 时 间 差 在 一 个 可 接受 的 范围 

内 。 

D 每 次 时 钟 读 取 是 作为 时 间 范 围 来 给 定 的 ， 确 保 了 正确 的 时 间 在 这 个 范围 内 。 

每 个 客户 配置 有 一 个 计时 员 (Time Clerk) 来 负责 同步 机 器 的 时 间 与 DCE 时 间 ， 当 需要 同步 本 地 时 钟 
时 ， 计 时 员 就 与 计时 服务 器 组 (Timer Servers) 进行 交互 。 计 时 员 需 要 在 每 次 同步 行为 上 观察 时 间 偏 移 。 
最 终 ， 它 将 确定 本 地 机 器 时 钟 中 的 偏 移 数 和 方向 。-- 且 确定 了 这 些 信息 ， 当 它 知道 本 地 时 钟 与 DCE 时 间 
偏离 太 远 时 ， 它 会 与 计时 服务 器 进行 同步 。 

每 个 信 元 包含 了 几 个 计时 服务 器 ， 当 计时 员 请 求 计时 服务 器 时 ， 它 返回 当前 时 间 。 计 时 服务 器 也 互相 
查询 来 确定 正确 的 时 间 ， 根 据 信 元 中 的 计时 服务 器 中 的 一 致 时间 来 调整 它们 自己 的 时 钟 。 这 将 保持 一 个 信 
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元 内 的 所 有 机 器 同步 ， 但 是 不 能 阻止 信 元 内 的 时 间 与 正确 时 间 相 偏离 。 计 时 员 与 计时 服务 器 间 的 通信 时 间 
是 已 知 的 〈 至 少 是 限定 的 )。 这 意味 着 在 同一 LAN 上 从 计时 服务 器 中 读 取 新 时 间 所 花 时 间 要 比 从 不 同 LAN 
读 取 所 花 时 间 少 。 交 换 到 远程 LAN 上 的 计时 服务 器 的 包 要 通过 更 多 的 网 关机 器 ， 所 以 载 有 时 间 的 消息 从 
计时 服务 器 返回 到 计时 员 需 要 花费 一 定量 的 时 间 。 

在 DCE 方案 中 ， 每 个 LAN 至 少 有 三 个 计时 服务 器 。 如 果 LAN 仅 有 两 个 计时 服务 器 ， 其 中 一 个 必须 
作为 信使 计时 服务 器 来 与 全 局 计时 服务 器 交互 。 信 使 将 外 部 的 时 间 注 入 到 LAN 的 时 间 中 。 

最 后 ， 在 信 元 中 的 一 些 计 时 服务 器 必须 能 与 外 部 计时 提供 者 ( 某 个 外 部 源 ， 它 有 正确 时 间 的 一 个 精确 
表示 ) 同步 。 这 是 计时 服务 器 调整 它们 的 时 间 来 匹配 正确 时 间 的 一 种 方法 。 


18.4 Web 上 的 分 布 式 程序 设计 


并 行 和 分 布 式 编程 传统 上 受 高 性 能 科学 问题 解决 方案 的 需要 所 驱动 。 政 府 基 金 会 宣告 为 试图 解决 一 组 
重大 挑战 问题 的 人 们 提供 研究 支持 ， 这 促进 了 高 性 能 计算 的 研究 和 发 展 。 这 些 问题 在 任何 学 科 中 都 会 出 
现 ， 例 如 ， 绘 制 人 类 的 染色 体 组 就 是 一 个 重大 的 挑战 问题 。 

在 1995 年 前 ， 并 行 和 分 布 式 程序 设计 的 许多 研究 和 开发 受 高 性 能 计算 的 驱动 ， PVM 和 Beowulf 项 目 
就 是 一 个 极 好 的 例子 。DCE 的 发 展 也 受到 了 支持 高 性 能 科学 计算 的 需要 的 影响 ， 尽 管 它 也 打算 解决 其 他 的 
问题 领域 。 

在 20 世纪 90 年代 早期 WWW 发 展 起 来 并 受到 了 大 量 用 户 (与 高 性 能 计算 用 户 的 数目 相 比 较 ) 的 欢 
迎 [Berners-Lee，1996]。 计 算 机 和 网 络 从 实验 室 走 进 了 每 个 家 庭 。 日 用 品 广告 商 也 开始 建设 网 站 来 进行 产 
品 宣传 。 

而 且 ， 基 于 web 浏览 器 与 服务 器 交互 的 一 个 新 的 、 有 具体 的 计算 模型 出 现 了 。 在 最 简单 的 情况 下 ， 基 于 
we 的 信息 检索 基本 上 用 不 到 分 布 式 程序 设计 ， 用 户 决定 想 要 浏览 信息 时 ， 发 送 的 请 求 会 通过 Internet 传 
递 到 包含 信息 的 服务 器 上 。 服 务 器 通过 传递 文件 的 拷贝 到 web 浏览 器 上 来 作出 反应 。 在 最 简单 的 情况 下 ， 
使 用 的 逻辑 计算 模型 是 文件 传输 : 客户 发 送 文 件 拷贝 请 求 给 服务 器 ， 服 务 器 通过 发 送 文件 给 客户 来 作出 
反应 。 

Web 设计 者 意识 到 在 这 种 情形 中 ， 文 件 缓存 对 整体 性 能 很 关键 。 每 个 web 浏览 器 缓存 最 近 访 问 过 的 文 
件 的 拷贝 。 许 多 公司 开始 构建 系统 来 缓存 来 自 因特网 的 文件 。 这 种 技术 的 本 质 是 可 能 将 计算 机 配置 成 web 
缓存 (web cache) 或 web 代理 (web proxy). Internet 服务 提供 商 (SP) 会 在 本 地 安装 一 些 web 缓存 机 器 ， 
使 得 当 信息 第 一 次 被 任何 ISP 客户 获取 时 ，ISP 的 web 缓存 机 器 就 会 保持 一 份 文件 的 拷贝 。 这 使 得 不 必 每 
次 通过 Internet 访问 文件 时 都 需要 从 web 服务 器 中 拷贝 。 为 了 从 反复 的 文件 读 取 请 求 中 获 益 ，web 缓存 必 
须 足 够 大 ， 如 果 文 件 在 web 缓存 中 有 一 份 拷贝 ， 当 此 文件 在 服务 器 中 的 内 容 改变 时 ， 它 并 不 能 在 缓存 文件 
中 反映 出 来 。 这 种 情况 对 服务 器 发 送 如 股票 市 场 报价 的 “动态 内 容 ” 来 说 就 不 适合 了 。 

文件 传输 应 用 趋 于 串 行 化 客户 和 服务 器 的 执行 ， 客 户 发 出 一 个 请 求 给 服务 器 ， 然 后 等 待 文件 被 发 送 。 
当 用 户 和 应 用 变 得 更 复杂 时 ， 在 web 浏览 器 和 内 容 服务 器 间 有 更 多 的 交互 。 例 如 ，web 浏览 器 可 从 服务 器 
请 求 信息 ， 服 务 器 需要 作出 反应 索要 对 信息 类 型 的 访问 资格 ， 例 如 目录 号 。 使 用 这 种 简单 的 方法 ， 每 个 交 
互 由 来 自 客户 的 信息 传输 (如 目录 号 ) 和 来 自 服务 器 的 响应 (如 一 个 条 目的 描述 ) 组 成 。 即 这 些 复杂 的 交 
互 是 一 组 行为 ， 构 成 了 一 个 事务 。 

经 常 出 现在 早期 web 应 用 中 的 另 一 种 情形 是 : 如 果 特 定 的 上 下 文 算法 可 由 web 浏览 器 来 执行 ， 客 户 - 
服务 器 流量 会 极 大 地 减少 。Java 开发 人 员 对 这 种 情况 进行 了 示范 ， 他 们 让 web 浏览 器 下 载 一 副 图 像 ， 然 后 
让 本 地 的 算法 对 这 副 图 像 进行 处 理 。 这 个 内 容 可 能 是 手指 图 像 ， 算 法 可 能 是 让 手指 图 跳 Macarena $E, 

这 些 例子 是 更 传统 的 分 布 式 计算 (而 不 是 文件 下 载 ) 的 例子 : 客户 的 工作 (MAR) 量 要 比 固 化 在 
web 浏览 器 中 的 工作 量 大 得 多 。 系 统 设计 者 意识 到 可 以 在 web 浏 览 器 中 提供 这 样 一 种 计算 框架 ， 在 事务 开 
始 时 ， 它 通过 从 服务 器 方 下 载 一 个 小 应 用 程序 (applet) 到 客户 方 ， 这 样 就 可 以 进行 这 种 任务 的 计算 处 理 。 
当 事 务 处 理 时 ，applet 仅 在 web 浏览 器 中 ， 然 后 它 就 被 丢弃 了 。applet 是 从 服务 器 下 载 的 ， 一 旦 它 被 下 载 ， 它 
可 为 服务 器 很 好 地 进行 工作 。 可 能 更 重要 的 是 ， 系 统 会 临时 地 将 整个 的 计算 (如 动画 序列 ) 交 给 客户 处 理 。 

applet 取得 了 重要 的 成 功 ， 它 使 得 web 浏览 器 临时 变 成 了 本 来 发 生 在 服务 器 方 计算 的 一 个 远程 扩展 。 
今天 ，applet 被 Internet 内 容 服 务 器 广泛 地 使 用 。 通 常 的 applet 思想 指 的 是 移动 代码 (mobile code) 仅 
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当 需 要 时 才 载 人 到 客户 机 中 的 代码 。 
基于 web 的 分 布 式 程序 设计 与 高 性 能 科学 计算 有 一 些 相似 性 ， 但 是 在 其 他 方面 有 明显 不 同 。 分 布 式 程序 
设计 支持 的 大 部 分 新 的 开发 是 在 这 个 领域 。 本 章 的 其 余部 分 将 聚焦 于 这 些 新 的 分 布 式 程序 设计 运行 时 系统 。 


18.5 移动 代码 的 中 间 件 支持 


在 Web 域 内 工作 的 分 布 式 应 用 程序 员 想 要 解决 不 同 的 信息 处 理 问 题 ， 范 围 从 纯粹 的 内 容 发 布 到 电子 
商务 。 虽 然 这 些 应 用 没有 高 性 能 数字 计算 的 计算 密集 ， 但 是 它们 还 是 有 大 量 的 计算 组 件 。 因 为 web 应 用 领 
域 比 高 性 能 计算 更 新 ， 程 序 员 可 以 使 用 18.3 节 所 描述 的 技术 以 及 特别 设计 用 来 支持 现代 信息 管理 的 新 技 
术 〈 如 电子 商务 )。 在 这 节 中 ， 我们 将 着 重 于 设计 显 式 支持 这 类 应 用 的 中 间 件 。 

在 web 环境 中 ， 客 户 机 器 中 的 终端 用 户 被 假定 在 客户 机 中 使 用 一 个 固定 的 计算 设施 一 一 web 浏览 器 。 
web 浏览 器 可 以 通过 增加 移动 代码 、 揪 件 或 其 他 可 增加 的 软件 模块 来 定制 计算 。 这 些 增加 的 模块 被 配置 到 
客户 机 器 中 ， 准 备用 户 分 布 式 计算 。 移 动 代码 对 中 间 件 设计 有 很 大 的 影响 ， 它 是 在 需要 时 动态 加 载 到 客户 
机 器 中 的 。 

在 移动 代码 分 布 式 计算 发 展 中 有 两 个 里 程 碑 : web 的 发 行 和 Java 的 公开 发 行 。web 的 本 质 是 信息 可 使 
用 HTML 标志 来 定义 它 的 结构 ， 然 后 使 用 HTTP 来 发 布 。web 开始 存在 是 因为 大 量 的 人 们 使 用 这 个 协议 
来 发 布 信息 。web 浏览 器 的 流行 ， 特 别 是 20 世纪 90 年 代 早 期 在 llinois 大 学 的 NCSA 研究 人 员 开 发 的 Mo- 
saic web 浏览 器 ， 使 得 HTTP/HTML 可 被 大 众 访问 。 

Java 的 引入 (可 能 是 1995 年 ) 是 另 一 个 里 程 碑 事 件 ， 它 使 得 客户 端 web 浏览 器 可 以 动态 地 加 载 和 执 
行 移动 代码 。Sun 建立 了 一 个 新 的 安全 的 程序 设计 语言 ， 它 可 以 在 Netscape 浏览 器 (Mosaic 的 一 个 商业 版 
本 ) 中 执行 移动 代码 。 微 软 开 发 人 员 设 计 了 自己 的 web 浏览 器 来 执行 Java 移动 代码 ， 但 是 在 2000 年 ， 微 
软 浏览 器 使 用 基于 通用 语言 运行 时 (CLR) 系统 的 .NET 技术 作为 主要 的 移动 代码 平台 。 (在 2001 年 11 
月 份 ， 通用 语言 基础 设施 (CLI) 规范 被 采纳 到 ECMA-335 标准 中 。) Java 运行 时 系统 作为 移动 代码 ， 明 确 
建立 了 一 个 新 的 分 布 式 程序 设计 环境 ,但 是 很 快 发 展 成 一 个 更 一 般 的 分 布 式 远 程 对 象 环境 。CLR/CLI 技 
RE Java 方法 的 一 个 改进 ， 为 移动 代码 程序 设计 提供 了 一 个 更 健壮 的 运行 时 系统 。 我 们 下 面 将 概要 介绍 这 
两 种 方法 的 关键 方面 ， 强 调 操 作 系 统 和 分 布 式 系统 技术 。 


18.5.1 Java 和 Java 虚拟 机 


Java 是 一 种 程序 设计 语言 ， 它 有 相关 的 称 为 Java 虚拟 机 JVM) 的 运行 时 系统 。 根 据 庆祝 第 三 个 生日 
的 网 页 (http: //java.sun.com/features/1998/05/birthday.html) 所 说 明 的 ，Java 开始 努力 成 为 绿色 项 目 
(Green Project) 的 程序 设计 语言 ， 绿 色 项 目 是 由 Sun 进行 的 一 个 实验 性 项 目 ， 意 在 引领 数字 设备 将 来 的 方 
向 。 这 个 项 目 组 建立 名 为 “* 7” 的 移动 的 、 交 互 的 家 庭 娱乐 设备 ， 用 来 控制 TV、VCR 或 其 他 的 电子 设 
备 。 这 种 语言 最 初 称 为 “Oak”， 仅 是 开发 项 目的 一 部 分 。 

Java 从 一 开始 就 打算 成 为 网 络 程序 设计 语言 ， 没 有 必要 用 于 科学 计算 编程 。 在 x 7 的 使 用 中 ， 这 个 团 
队 意 识 到 Java 是 一 种 有 用 的 程序 设计 语言 ， 特 别 因 为 它 设计 用 来 显 式 地 将 内 容 在 网 络 上 移动 。Java 开发 人 
员 采 用 了 applet 的 思想 ， 因 为 他 们 意识 到 底层 的 Internet 技术 可 以 很 容易 地 使 用 FTP、TCP/UDP 和 其 他 的 
协议 发 送 内 容 。 但 是 缺乏 使 得 应 用 程序 员 可 以 容易 地 使 用 这 些 协 议 的 易 用 性 ， 这 和 传统 分 布 式 程序 设计 领 
域 中 的 远程 过 程 调 用 和 远程 文件 是 相同 的 动机 。 

Java 小 组 建立 了 一 个 web 浏览 器 ， 起 初 称 为 Web Runner， 然 后 是 HotJava， 它 们 可 以 执行 Java applet 
( 见 图 18-8)。Java 和 JVM 最 初 被 用 于 在 web 浏览 器 中 显示 动画 序列 。 在 1995 年 5 ABT, Java 技术 就 作为 
免费 alpha 软件 被 提供 了 。 这 个 演示 很 快 就 折服 了 技术 人 员 ， 由 于 Java 是 免费 的 ， 它 很 快 就 流行 起 来 了 。 
到 1995 EK, Java 作为 基于 web 的 分 布 式 程序 设计 环境 很 好 地 建立 起 来 了 ， 并 通过 移动 代码 扩展 了 web 
浏览 器 的 功能 。 

尽管 Java 并 没 构建 用 来 支持 传统 的 分 布 式 程序 设计 ， 但 它 在 那个 环境 中 有 用 吗 ” 当 你 考察 Java 的 不 
同方 面 时 ， 你 会 发 现 所 有 合适 的 机 制 都 可 以 支持 高 性 能 计算 ， 尽 管 它们 的 目标 是 在 内 容 发 布 上 。 在 1998 
年 2 月 ，ACM 发 起 了 一 个 研究 会 议 : “有 关 高 性 能 网 络 计算 的 Java 工作 组 ” ( 见 htip: //www.cs.ucsb.edu/ 
conferences/java98/program. html )。 这 个 会 议 提出 了 一 个 论点 : Java 事实 上 也 适合 传统 的 分 布 式 程序 设计 领域 。 
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语言 

Java 是 面向 对 象 的 程序 设计 语言 ， 是 从 C 和 C++ 程序 设计 语言 使 用 的 语法 发 展 而 来 的 。 本 书 并 没有 
提供 Java 的 一 个 全 面 描述 ( [Arnold 
and Gosling，1996] 中 有 完全 的 定义 )。 
然而 ， 在 分 布 式 程序 设计 运行 时 系统 
的 环境 中 ， 下 面 是 Java 语言 的 一 些 重 Web Runner 
要 方面 。 源 程序 通过 声明 类 (可 能 使 
用 继承 ) 来 定义 ， 类 可 以 实例 化 来 创 
建 一 个 对 象 。 下 面 的 传统 Smalltalk 范 
式 ， 一 个 对 象 定 义 了 它 自己 的 地 址 空 
间 ， 包 含 了 私有 方法 和 数据 结构 。 它 


客户 服务 器 





也 提供 了 一 个 公共 接口 ， 定 义 了 可 施 图 18-8 可 移动 Java 代码 

加 到 对 和 象 上 的 方法 。 其 他 的 对 象 通过 。” 注 ; Java appe 是 可 被 服务 器 动态 加 载 到 JVM 的 代码 模块 GR 
发 送 有 类 型 的 消息 给 目标 对 象 来 与 目 1)。Sun 研究 人 员 将 JVM HRA BET web 浏览 器 中 (Web 
标 对 象 进行 通信 ， 有 类 型 的 消息 对 应 Runner， 后 来 称 为 HotJava)。 在 第 2 步 中 ，applet 用 于 与 服务 
于 目标 对 象 的 导出 接口 的 一 个 方法 。 器 的 对 等 通信 。 


Java applet 在 执行 时 可 被 加 载 到 web 浏览 器 ( 见 图 18-8)， 如 果 移动 代码 的 行为 完全 像 特洛伊 木马 ， 例 
如 ， 读 写 在 applet 外 面 的 信息 ， 则 apple 完全 是 不 可 接受 的 。 在 如 C/C++ 这样 的 语言 中 ， 可 执行 代码 可 
以 使 用 指针 来 访问 数据 结构 。 而 且 ， 任 何 代码 可 以 对 指针 作 算 术 运 算 ， 使 得 applet 可 以 产生 指针 来 访问 它 
所 在 地 址 空间 内 的 任何 地 址 。 在 web 浏览 器 上 下 文中 ,这 意味 着 C 式样 的 applet 可 以 读 写 运行 web 浏览 器 
的 进程 中 的 任何 变量 。Java 排除 了 指针 数据 类 型 来 阻止 这 种 情况 的 发 生 。 当 一 个 对 象 被 初始 化 时 ， 它 为 数 
据 结构 分 配 一 个 指示 符 (referent) 。Java 语言 不 允许 程序 来 对 指示 符 执行 算术 操作 ， 它 仅 能 被 类 型 安全 函 
数 来 设置 ， 如 new () 函数 用 来 初始 化 一 个 对 象 。Java 也 有 几 个 其 他 的 手段 来 阻止 applet 访问 applet 所 在 地 
址 空间 外 的 信息 。 因 此 ，Java applet 授权 机 制 的 一 个 重要 手段 是 语言 定义 ， 这 是 由 编译 器 和 JVM 强加 的 。 

JVM 执行 模型 

JVM 为 执行 的 Java 程序 定义 了 运行 时 系统 [Lindhom and Yellin，1997]。 执 行 Java 程序 的 每 个 平台 都 
有 一 个 JVM 引擎 。 尽 管 在 原理 上 ，JVM 实际 上 可 以 定义 成 操作 系统 ， 但 是 传统 上 它 是 作为 用 户 空间 运行 
时 系统 来 实现 的 ， 它 在 本 地 操作 系统 (如 UNIX 或 Windows) 之 上 执行 。 

当 Java 程序 被 编译 时 ， 程 序 从 高 级 源 语 言 转 换 成 称 为 Java 字 节 码 格式 的 中 间 执 行 语言 。 对 一 个 理想 
化 的 目标 计算 机 ( 指 JVM) 来 说 ， 一 个 字 节 码 可 被 认为 是 一 种 机 器 语言 。 在 最 简单 的 情况 下 ， 当 一 个 Java 
类 被 实例 化 并 执行 时 ，JVM 通过 对 类 的 字 节 码 进行 解释 来 执行 对 象 的 方法 。 这 是 一 个 功能 很 强 的 模型 ， 
因为 它 人 允许 Java 代码 可 以 在 有 JVM 的 任何 地 方 运行 。 这 意味 着 Java 可 以 运行 在 支持 JVM 的 任何 计算 环境 
中 ， 这 是 Java 作为 分 布 式 程序 设计 系统 的 一 个 关键 特点 。 

解释 执行 广泛 被 用 于 下 述 三 种 不 同情 况 下 : 当 程序 可 被 生成 时 或 被 动态 定义 时 ; 当 程 序 在 大 量 不 同 的 
计算 平台 上 运行 时 ; 或 当 程 序 非常 小 ， 并 在 下 次 修改 (或 下 次 下 载 ) 前 执行 少量 的 时 间 。 所 有 这 些 情形 都 
适用 于 Java applet， 所 以 设计 者 使 用 这 种 解释 方法 来 执行 。 

编译 代码 常常 比 解释 代码 运行 得 更 快 ， 这 意味 着 在 一 些 情况 下 ，Java 字 节 码 表示 会 出 现 性 能 瓶颈 。 在 
这 些 情况 下 ，JVM 可 以 包含 一 个 JIT 编译 器 ， 它 可 以 将 Java 字 节 码 表 示 转 换 成 执行 JVM 的 计算 机 的 机 器 
语言 。JVM 要 么 解释 执行 字 节 码 ， 要 么 将 字 节 码 转换 成 本 地 机 器 语言 并 执行 。 在 分 布 式 程序 设计 环境 下 ， 
JIT 编译 器 选项 是 十 分 重要 的 ; 当 远 程 对 象 的 执行 数目 增加 时 ， 目 标 代码 执行 的 效率 就 变 得 很 关键 了 ， 这 
可 以 由 JIT 编译 这 个 对 象 来 完成 。 

线程 类 

Java 有 几 个 基本 的 类 ， 它 提供 了 一 些 Java 语言 中 的 功能 。 线 程 支持 就 是 这 样 一 个 类 ， 所 以 你 可 以 将 它 
想像 成 Java 功能 的 运行 时 / 库 扩 展 。Java 程序 员 通 过 定义 Thread 基 类 的 子 类 来 创建 新 的 线程 ， 然 后 初始 化 
子 类 的 对 象 。 它 具有 用 户 空间 线程 的 所 有 属性 : 它 共享 代 码 ， 但 是 保持 它 自 己 的 上 下 文 。 线 程 复 用 操作 系统 
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的 计算 调度 单元 〈 线 程 或 进程 )， 如 果 底 层 操作 系统 支持 内 核 线程 的 话 ， 也 可 以 使 用 内 核 线程 来 实现 基线 程 。 
创建 一 个 基 类 为 Thread 的 对 象 即 启动 了 线程， 但 blic class MyThread extends Thread { 
是 并 没有 为 它 定义 实际 性 的 工作 。 线 程 类 有 一 个 并 不 做 | public mymnread(..-) { 








任何 工作 的 rn O 函数 。 当 线程 对 象 接收 到 消息 “new // The constructor 
MyThread (...) .start ()” 时 ， 子 类 期 望 用 线程 想 要 | biblic void run0) 1 
执行 的 代码 来 重新 定义 run () 方法 ( 见 图 18-9)。 创建 ) // Insert the thread code here 
线程 对 象 事实 上 不 会 让 它 运行 ， 必 须要 发 送 start () |, 
消息 来 让 它 运 行 。 

也 有 其 他 的 方法 来 定义 在 线程 中 的 run () 方法 ， 图 18-9 Java Thread 类 
基本 思想 是 你 可 以 实例 化 一 个 继承 了 Thread 类 的 类 对 注 : MYThread 是 一 个 类 ， 它 从 内 置 Thread 基 类 
象 来 创建 一 个 多 线程 应 用 。 通 过 为 线程 类 中 的 run () ”你 水 了 基 类 的 行为 。 新 线程 的 行为 通过 覆 
方法 提供 一 个 定义 ， 你 就 可 以 定义 新 的 线程 将 要 执行 的 Bi Thread 类 中 的 ron O 方法 来 定义 。 
代码 。 


当 线 程 在 运行 时 ， 它 会 调用 运行 时 系统 中 的 许多 函数 ， 这 些 函 数 包含 yield () 调用 ， 这 个 调用 会 引 
起 Java 运行 时 系统 中 的 调度 器 运行 ， 使 得 操作 系统 线程 可 以 被 另 一 个 Java 线程 复 用 。 这 和 POSIX 用 户 线 
程 实现 时 所 采取 的 调度 方式 相同 。Java 运行 时 调度 器 采用 优先 级 调度 。 当 创建 线程 对 象 时 ， 新 线程 继承 父 
线程 的 优先 级 。 优 先 级 可 以 通过 运行 时 系统 的 其 他 调用 来 改变 ， 尽管 默认 情况 下 它 是 使 用 父 线程 的 优 
先 级 。 

线程 同步 使 用 类 似 于 管 程 的 方法 。 线 程 对 象 中 的 任何 方法 可 以 标识 为 同步 的 (synchronized)， 意 昧 着 
每 次 只 有 一 个 线程 可 以 执行 对 象 中 的 同步 方法 。synchronized 关键 字 也 可 对 特殊 对 象 中 的 每 个 方法 加 锁 。 
最 后 ， 同 步 化 方法 也 可 使 用 像 条 件 变 量 的 wait () 和 notify () (或 notifyAll ())。 如 果 一 个 同步 方法 正 
在 执行 ， 这 个 方法 确定 它 不 能 执行 直到 某 个 条 件 为 真 ， 那 么 它 调 用 wa 让 ()， 释 放 方法 上 的 锁 。 因 此 ,多 
个 线程 可 能 会 在 一 个 特定 的 条 件 上 阻塞 ， 每 个 线程 会 调用 wait ()。 当 一 些 其 他 的 线程 使 得 条 件 改变 时 ， 
它 可 以 调用 notify () 来 解锁 等 待 时 间 最 长 的 线程 ， 或 调用 notifyall () 来 解锁 所 有 的 等 待 线程 。 

远程 对 象 和 远程 方法 调用 

JVM 能 够 支持 远程 对 象 ， 意 味 着 它 允 许 程序 员 动态 地 定义 远程 对 象 并 可 以 通过 发 送 消息 来 执行 它们 。 
在 web 浏览 器 的 上 下 文中 ， 移 动 代码 OFM) a 可 以 在 远程 机 器 上 下 载 ， 并 且 它们 的 方法 可 以 从 本 地 机 器 上 
调用 远程 方法 调用 (remote method invocation，RMI)。 

一 旦 对 象 被 加 载 ， 如 从 服务 器 加 载 到 客户 机 ， 服 务 器 需要 能 够 调用 客户 对 象 上 的 方法 。 注意 在 这 种 情 
况 下 ， 原 来 的 客户 和 服务 器 可 能 会 变换 角色 ( 见 图 18-10)。 原来 的 服务 器 的 行为 现在 就 像 一 个 客户 ， 因 为 
原来 的 服务 器 现在 发 送 一 个 服务 请 求 消息 给 原来 客户 中 的 对 象 。 模型 仍然 是 客户 - 服务 器 计算 模型 ， 但 是 
一 旦 目标 对 象 被 加 载 到 客户 机 ， 它 的 行为 就 开始 像 服 务 器 对 象 。 


客户 服务 器 





) 加 载 Applet 


Applev 对 象 ill © RMI 
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图 18-10 远程 对 象 ~ 客户 中 的 服务 器 
TE: 这 幅 图 解释 了 服务 器 可 以 〈1) 加 载 一 个 对 象 到 远程 客户 机 器 中 ， 并且 (2) 使 用 RMI 来 发 送 服务 请 求 ， 
(3) 远程 对 象 用 请 求 的 结果 对 RMI 作出 反应 。 
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远程 对 象 机 制 依赖 于 RMI 机 制 ，RMI 机 制 和 传统 的 RPC 的 目的 相同 。JVM 实现 了 它们 自己 的 网 络 协 
议 , 来 使 得 服务 器 JVM 可 以 调用 客户 JVM 中 对 象 的 方法 。 当 一 个 对 象 没 有 放置 在 本 地 时 ，Java 创建 了 一 
个 客户 存根 ， 这 样本 地 对 象 就 可 以 使 用 它 来 调用 远程 对 象 上 的 方法 。 

远程 对 象 的 行为 很 像 一 个 服务 器 ， 这 是 通过 将 远程 对 象 注 册 到 全 局 注册 表 中 来 完成 的 〈 使 用 每 个 
JVM 的 rmiregistry 设施 ) 。 如 果 远 程 对 象 注册 它 自 己 ， 对 发 送 消息 给 它 的 对 象 来 说 ， 它 就 充当 服务 器 的 角 
色 。 

因为 RMI 利用 了 这 个 事实 : 所 有 的 对 象 都 是 用 相同 的 语言 编写 的 并 且 都 有 相同 的 内 部 表示 一 一 Java 
字 节 码 ， 这 样 极 大 地 简化 了 远程 对 象 和 RPC 的 许多 东西 。 当 一 个 对 象 被 加 载 到 客户 机 器 时 ， 没 有 必要 获 
得 目标 机 器 的 对 象 的 正确 二 进 制 表 示 〈 它 的 代码 和 数据 ) ， 因 为 所 有 的 Java 对 象 都 是 用 标准 的 格式 表示 的 。 
对 象 可 以 简单 地 被 拷贝 ， 这 依赖 于 远程 机 器 中 解释 字 节 码 的 JVM 的 存在 ， 字 节 码 是 Java 发 布 基本 假定 的 
一 部 分 。 实 际 上 ，web 浏览 器 在 实现 分 布 式 程序 设计 中 起 了 关键 的 作用 : web 浏览 器 提供 了 远程 对 象 可 以 
执行 的 JVM。 

安全 

在 Java 中 ,安全 涉及 两 个 不 同 的 方面 : 阻止 applet 对 客户 机 器 资源 的 未 认证 、 未 授权 的 访问 ， 以 及 确 
保 在 分 布 式 Java 对 象 间 的 安全 交互 〈 见 图 18-11)。 关 于 安全 机 制 的 研究 (第 14 章 ) 强调 了 这 些 环 境 的 某 
些 组 件 。 例 如 ， 操 作 系 统 不 允许 在 包含 web 浏览 器 、JVM 和 applet 的 进程 中 执行 的 线程 对 其 他 系统 资源 的 
未 授权 访问 。Java 环境 将 为 图 中 显示 的 其 他 机 制 提 供 安 全 。 

安全 机 制 的 第 一 个 要 素 (图 中 的 1) 
是 : 在 移动 代码 被 加 载 到 客户 机 之 前 ， 要 对 
移动 代码 的 源 进行 认证 。 在 商业 界 中 ， 这 个 
问题 已 经 花费 了 人 们 相当 大 的 精力 。 一 般 的 
思想 是 当 信息 通过 一 个 数字 签名 认证 时 ， 分 4 
布 式 环境 中 的 主机 才 准 备 接受 来 自 远程 位 置 [ee Jj 
的 信息 。 数 字 签 名 是 加 密 的 信息 块 ， 用 来 向 
接收 者 保证 发 送 者 被 认证 了 ( 见 14.4 节 )。 





服务 器 





现在 ， 移 动 代 码 可 以 用 一 个 关联 的 认证 证 书 图 18-11 Java 环境 中 的 安全 

RE, 包含 了 服务 的 数字 签名 。 客 户 软件 检 È: 中 一 旦 对 象 被 授权 放置 到 远程 主机 ，@ 安 全 机 制 必须 阻 
查证 书 ， 接 受 或 者 拒绝 基于 服务 器 标识 的 移 止 对 象 对 主机 环境 中 的 信息 进行 未 授权 的 访问 ，@ 它 也 
动 代码 。 必须 确保 远程 对 象 和 原来 服务 器 间 的 交互 是 安全 的 。 


消息 摘要 是 数字 签名 的 精炼 ( 见 14.4 节 中 对 PGP 的 讨论 )。 消 息 摘要 是 一 个 加 密 了 的 信息 块 (OR 
务 器 认证 信息 )， 并 被 转换 成 相对 小 的 、 固 定 尺寸 的 信息 块 《 在 PGP 中 ,消息 摘要 是 128 位 长 )。 在 安全 上 
下 文中 ,通常 消息 摘要 也 称 为 内 容 的 hash。 消 息 摘要 从 applet 创建 ， 并 被 数字 化 标记 ， 产 生 健 壮 的 证 书 。 
这 使 得 每 个 applet 有 不 同 的 数字 签名 一 一 它 依 赖 于 消息 内 容 ， 但 是 它 能 很 快 地 被 检查 。 

下 一 步 我们 考虑 如 下 的 安全 机 制 : 如 何 阻止 移动 代码 对 主机 地 址 空间 中 未 授权 信息 的 访问 (图 18-11 
中 的 访问 类 型 2)。 在 语言 特征 的 讨论 中 ， 我 们 观察 到 Java 是 作为 类 型 安全 的 语言 来 设计 的 ， 它 并 没 使 用 
指针 〈 因 此 没有 指针 运算 )。 这 些 语 言 特征 是 阻止 Java applet 访问 主机 环境 中 资源 的 主要 机 制 。 这 样 ，ap- 
plet 必须 要 用 Java 来 编写 〈 不 能 使 用 C 或 汇编 语言 )， 这 意味 着 JVM AIT 编译 器 可 以 静态 地 确定 对 象 在 访 
问 哪个 资源 。 这 被 称 之 为 “ 沙 箱 方法 ”， 因 为 它 允 许 applet 做 想 要 做 的 任何 事情 ， 但 是 仅 能 在 有 限 地址 空 
间 内 操作 (WH). ` 

Java 1.2 软件 开发 色 (SDK) 允许 分 布 式 程序 员 构建 更 复杂 的 机 制 ， 包 括 安全 管理 器 。 安 全 管理 器 可 
以 在 客户 机 器 上 定义 不 同 的 安全 域 ， 然 后 根据 移动 代码 执行 的 域 来 使 用 不 同 的 保护 策略 。 特 别 是 ，SDK 可 
以 使 得 一 些 域 中 的 代码 来 竞争 主机 资源 的 使 用 ， 好 像 它 们 是 主机 系统 中 运行 的 单个 进程 。 

最 后 ， 考 虑 图 18-11 中 的 访问 类 型 3， 这 是 使 用 Internet 在 远程 对 象 间 传 送 消息 的 问题 。 这 里 Java 使 
用 了 14.4 节 所 描述 的 传统 的 加 密 / 解 密 方法 (用 数字 签名 和 消息 摘要 )。 有 一 些 其 他 的 核心 Java 类 来 支持 
签名 、 消 息 搞 要 和 和 密 钥 管理 。 
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18.5.2 ECMA-335 通用 语言 基础 设施 


Sun 采取 了 Java 来 进行 分 布 式 程序 设计 ，Sun 打算 让 Java 成 为 可 移植 的 程序 设计 环境 ， 它 可 以 将 不 同 
的 工作 站 和 服务 器 网 络 转 换 成 逻辑 上 异 构 的 多 JVM 网 络 。Sun 和 微软 是 商业 上 的 竞争 者 。 微 软 打算 构建 
自己 的 分 布 式 运行 时 系统 : 通用 语言 运行 时 (CLR) 系统 。 因 为 CLR 开发 人 员 在 开始 他 们 的 设计 的 前 五 
年 ， 就 已 经 对 Java 技术 的 各 种 缺点 有 所 了 解 了 ， 很 自然 ，CLR 提供 了 新 的 技术 。 

在 2000 年 ， 微 软 宣告 了 .NET 计划 。 它 着 重 于 基于 Internet 分 布 式 计 算 产品 的 开发 ， 从 支持 移动 计算 
到 支持 网 络 语言 和 协议 (最 著名 的 是 XML)， 并 提供 了 一 些 方 法 来 建立 互联 网 服务 和 服务 器 。 

CLR 是 一 个 商业 产品 ， 它 的 细节 并 没有 公开 给 用 户 。ECMA - 335 标准 定义 了 通用 语言 基础 设施 
(CLI). CLR 遵循 这 个 标准 。 在 2002 年 3 月， 微软 发 布 了 CLI 的 参考 实现 ， 称 为 共享 源 CLI (SSCLI, 或 
称 为 Rotor) [Stutz，et al., 2004]. SSCLI 分 布 包括 了 CHA JScript 编译 器 ， 以 及 基 类 库 。 这 些 参 考 实现 
运行 在 Windows XP、FreeBSD 以 及 Mac OS X 操作 系统 上 。 

使 用 CLI 的 语言 被 提供 了 广泛 的 运行 时 支持 。 类 型 安全 就 是 这 样 一 个 特征 。 尽 管 编译 器 处 理 所 有 的 静 
态 类 型 检查 ， 它 也 可 以 产生 运行 时 类 型 检查 ， 例 如 ， 确 保 对 象 加 载 操作 是 正确 的 尺寸 。 这 阻止 了 正常 的 缓 
冲 区 溢出 问题 一 一 病毒 侵 人 计算 机 计算 环境 使 用 的 一 种 基本 技术 。 

CLI 支持 的 各 种 语言 允许 指针 和 指针 运算 。 然 而 ， 当 被 访问 的 组 件 被 加 载 时 ， 超 过 组 件 范围 的 指针 必 
须 指向 CLI 管理 的 符号 。 环 境 并 不 允许 组 件 中 的 对 象 指 向 另 一 个 组 件 中 的 任意 位 置 。 组 件 仅 能 进入 一 个 指 
定 的 程序 人 口 点 。 这 在 组 件 访问 一 级 提供 了 类 型 安全 ， 支 持 将 组 件 作 为 移动 代码 来 使 用 。 

CLI 假定 所 有 的 软件 是 作为 类 (执行 时 就 作为 对 象 ) 来 定义 的 ， 编 译 器 将 存储 在 文件 中 的 每 个 源 程 序 
转换 成 模块 (与 传统 编译 器 输出 的 可 重 定位 对 象 模 块 相 比 较 )。 一 个 模块 包含 了 一 个 或 多 个 类 定义 。 编 译 
过 的 代码 ( 称 为 通用 中 间 语 言 ，CIL) 是 适合 CLI 虚拟 执行 系统 (VES) 执行 的 形式 。CIL 类 似 于 Java F 
节 码 ， 意 味 着 对 任何 具体 的 硬件 体系 结构 来 说 ， 它 并 不 是 本 地 的 机 器 语言 ， 但 是 期 望 在 执行 前 转换 成 本 地 
机 器 代码 。 假 定 CIL 将 被 编译 成 本 地 机 器 语言 (并 且 从 不 会 被 解释 )。 

JVM 是 单个 语言 的 运行 时 系统 ， 所 以 虚拟 机 的 构建 体现 了 对 语言 语义 有 一 个 明确 的 理解 。 编 译 器 将 
静态 分 析 的 结果 传递 给 运行 时 系统 的 能 力 有 限 ，CLI 使 用 元 数据 来 使 得 编译 器 传递 一 个 完全 的 类 型 自 描 
述 ， 它 定义 在 运行 时 系统 的 模块 中 。 模 块 包含 了 CIL 和 元 数据 。 

使 用 元 数据 的 主要 优点 是 : 类 型 检查 系统 可 以 将 静态 和 动态 技术 结合 起 来 。 当 CIL 被 执行 时 ，VES 有 
所 有 的 类 型 定义 信息 可 用 ， 所 以 它 能 很 容易 地 在 CLI 中 支持 运行 时 类 型 检查 。 

通过 包含 完全 的 类 型 描述 ， 模 块 可 以 与 用 不 同 源 程序 设计 语言 编写 的 模块 相 结 合 ， 因 为 CLI 使 用 的 通 
用 类 型 规范 包含 了 元 数据 来 实现 成 员 函 数 调 用 。 

转换 环境 将 结合 模块 来 定义 assembly (或 DLL)» Æ assembly 的 一 组 模块 中 ， 至 少 要 有 一 个 模块 包含 
一 个 表单 (manifest) 来 提供 assembly 的 一 个 整个 描述 (包括 assembly 中 的 模块 列表 )。assembly 的 每 个 模块 
有 一 个 单个 的 主人 口 点 、 一 组 导出 的 类 型 定义 〈 如 成 员 函 数 ) 和 一 组 对 其 他 assembly 的 未 绑 定 的 引用 。 

assembly 是 由 CLI 实现 所 管理 的 配置 单元 ， 它 定义 了 ， 

m 将 被 下 载 到 机 器 的 代码 单元 。 

B 用 于 安全 机 制 的 管理 单元 。 

BADE LAER (尽管 一 个 assembly 中 的 对 象 可 以 调用 另 一 个 assembly 中 的 成 员 函 数 ) 。 

m 对 应 于 软件 完全 版 本 的 软件 单元 。 

assembly 是 一 个 可 重用 的 软件 组 件 ， 它 可 被 它 自己 使 用 ， 或 与 其 他 的 组 件 结合 起 来 实现 一 个 更 复杂 的 
计算 单元 。 

当 一 个 assembly (或 CLI 兼容 的 DLL) 被 加 载 和 执行 时 ，CLI 在 一 个 操作 系统 进程 中 启动 。 也 就 是 说 ， 
CLI 兼 容 的 可 执行 文件 包含 指导 操作 系统 加 载 器 调用 CLI 的 信息 。 可 让 编译 器 产生 代码 来 完成 CLI 调用 ， 
当代 码 跳 到 CLI 的 人 日 点 时 ， 使 得 它 初始 化 自己 ， 然 后 返回 并 完成 加 载 文件 处 理 。 

在 所 有 的 CLI 实 现 中 ，assembly 被 下 载 到 VES 管理 的 应 用 域 (application domain) 虚拟 机 中 。 通常 ， 
CLI 的 实现 期 望 assembly 内 的 外 部 引用 将 绑 定 到 在 相同 应 用 域 中 执行 的 另 一 个 assembly 的 公共 接口 上 。 因 
此 ， 应 用 域 定义 了 assembly 集合 ， 它 实现 了 一 个 特定 终端 用 户 功能 。 有 趣 的 是 ， 跨 assembly 的 成 员 函 数 调 
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用 也 可 使 用 ， 并 且 它 们 也 可 按 下 面 解释 的 要 求 来 进行 绑 定 。 每 个 应 用 域 定义 了 由 VES 管理 的 地 址 空间 ， 
而 不 是 由 操作 系统 管理 的 地 址 空间 。 

应 用 域 被 加 载 到 CLI 地 址 空间 。 通 常 ， 根 据 底 层 的 操作 系统 和 硬件 提供 的 地 址 空间 类 型 支持 ， 每 个 地 
址 空间 提供 了 显 式 的 存储 界限 。 例 如 ， 在 Windows 和 UNIX 实现 中 ， CLI 地 址 空间 和 操作 系统 进程 地 址 空 
间 是 相同 的 。 

每 个 地 址 空间 可 以 包含 多 个 应 用 域 ， 每 个 应 用 域 必须 确保 不 与 其 他 的 应 用 域 相互 干扰 。 这 是 可 能 的 ， 
因为 运行 在 应 用 域 中 的 所 有 代码 是 类 型 安全 的 代码 。 类 型 安全 确保 不 会 违背 应 用 域 定 义 的 地 址 界限 ， 所 以 
在 单个 地 址 空间 中 运行 多 个 应 用 域 是 十 分 安全 的 。CLI 实现 也 支持 内 部 的 应 用 域 间 的 通信 。 当 然 ， 这 需要 
CLI 在 类 型 检查 机 制 中 提供 一 个 漏洞 ， 称 为 远程 化 (remoting)。 远 程 化 可 用 来 跨 地 址 空间 ， 也 就 是 说 ， 它 
用 来 作为 主机 操作 系统 IPC 机 制 的 一 个 接口 (以 及 RMI， 在 下 面 解释 )。 

模块 、assembly、 应 用 域 和 地 址 空间 间 的 关系 概括 在 图 18-12 中 。 编 译 器 创建 的 单元 是 模块 ， 模 块 被 
结合 来 形成 一 个 称 为 assembly 的 可 部 署 单元 。assembly 可 以 在 一 个 应 用 域内 单个 地 或 作为 一 个 组 来 进行 操 
作 。 应 用 域 在 CLI 地 址 空间 中 执行 (通常 情况 下 在 操作 系统 进程 地 址 空间 中 执行 )。 


OS 进程 地 址 空间 





图 18-12 地 址 空间 、 应 用 域 、assembly 和 模块 
注 : 模块 是 由 编译 器 创建 的 ， 一 组 模块 可 以 组 合 形成 一 个 assembly (CLI 中 的 部 署 单元 )。 当 assembly 被 加 载 和 
执行 时 ， 它 绑 定 到 一 个 应 用 域 中 ， 每 个 应 用 域 有 它 自 己 的 地 址 空间 ， 多 个 应 用 域 可 以 在 单个 CLI 地 址 空间 
(通常 对 应 于 一 个 操作 系统 进程 地 址 空间 ) 中 执行 。 


VES: 虚拟 执行 系统 

当 编译 系统 创建 一 个 assembly 时 ， 它 被 存储 在 一 个 文件 中 。 为 了 将 assembly 部 署 到 远程 机 器 中 , 它 的 
关联 文件 最 后 必须 拷贝 到 目标 机 器 上 assembly 可 以 使 用 配置 命令 来 安装 ， 或 当 assembly 中 的 类 成 员 被 访 
问 时 来 安装 〈 见 图 18-13)。 安 装 进程 需要 VES 从 (本 地 或 远程 ) assembly 存储 中 获得 assembly 的 拷贝 ， 检 
查 调用 者 的 授权 ， 验 证 assembly 的 有 效 性 ， 然 后 将 assembly 绑 定 到 应 用 域 中 。 

一 旦 assembly 被 验证 并 加 载 到 应 用 域 中 ， 应 用 域 中 的 其 他 执行 代码 可 以 访问 自己 类 中 的 公共 成 员 和 变 
E. 然而， 类 的 成 员 并 不 绑 定 到 调用 代码 直到 跨 类 的 访问 实际 发 生 。 这 引起 VES 的 另 一 部 分 程序 来 在 加 
载 到 应 用 域 的 assembly 中 找到 目标 类 ， 对 访问 授权 进行 验证 ， 从 元 数据 中 提取 目标 类 的 细节 ， 然 后 构建 一 
个 合适 的 调用 表 数 据 结 “类 信息 ”。 

在 对 类 中 的 成 员 进 行 第 一 次 访问 时 ， 它 的 定义 将 是 CIL 形式 。 不 像 JVM， 在 CLI 执行 之 前 ，CLI 实现 
总 是 使 用 JIT 编译 器 来 将 CIL 转换 成 本 地 代码 (没有 代码 被 解释 成 CIL 格式 )。 随后 对 成 员 的 访问 将 使 用 
以 前 JIT 编译 过 的 成 员 函 数 版 本 ， 而 不 是 重新 编译 它 。 

当 JIT 编译 器 编译 CIL 时 ，JIT 编译 器 使 用 源 程序 编译 器 创建 的 元 数据 。 有 了 元 数据 ， 就 没有 必要 使 
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用 函数 原型 和 接口 描述 语言 。 一 旦 CIL 代码 被 JIT 编译 器 转换 成 本 地 机 器 语言 ， 它 可 以 直接 在 底层 的 操作 


系统 和 硬件 平台 上 执行 。VES 也 有 一 些 
其 他 的 特征 ， 最 著名 的 是 垃圾 收集 器 和 
结构 化 的 异常 处 理 器 ， 当 然 我 们 的 重点 
仍然 在 于 与 分 布 式 程序 设计 有 关 的 CLI 
方面 。 

移动 代码 

assembly 可 以 被 本 地 存储 在 一 个 特 
定 的 应 用 目录 中 ， 或 在 机 器 或 用 户 的 
assembly 缓存 中 。assembly 也 可 以 存储 
在 服务 器 中 ， 意 味 着 在 客户 机 器 上 执行 
的 assembly 可 以 从 服务 器 获得 。 这 意味 
着 是 客户 请 求 从 服务 器 那儿 得 到 移动 代 
码 (和 applet 的 情况 相同 )。 

当 应 用 开始 时 ， 应 用 中 的 第 一 
assembly 被 加 载 和 执行 ， 随 后 的 assem- 
bly 要 直到 它们 被 访问 时 才 加 载 。 在 as- 
sembly 第 一 次 被 访问 时 ，assembly 加 载 
器 会 激活 下 载 器 来 定位 应 用 目录 、 子 目 
录 、 缓 存 或 文件 的 URL 中 的 assembly 





类 间 调 用 


Assembly 
间 调 用 


图 18-13 ”虚拟 执行 系统 (VES) 
注 : VES 是 CLI 的 核心 ， 当 assembly 中 的 一 个 类 被 本 地 代码 执行 
所 访问 时 ， 它 负责 管理 将 assembly 加 载 及 绑 定 到 应 用 域 中 。 


名 。 下 载 器 然后 得 到 assembly, EEA assembly 加 载 器 ， 并 将 它 绑 定 到 应 用 域 中 。 


远程 对 象 


在 CLI 中 ,远程 化 (remoting) 是 支持 远程 对 象 的 一 种 基本 机 制 ， 这 个 设施 允许 CLI 地 址 空间 中 的 一 
个 对 象 调用 不 同 地 址 空间 内 对 象 的 成 员 函 数 ( 见 图 18-14)。 借 助 于 类 库 中 的 MarshalByRefObject 基 类 ， 
CLI 实现 了 远程 化 。 其 思想 就 是 一 个 远程 可 访问 的 对 象 是 MarshalByRefObject 类 的 子 类 的 一 个 实例 。 这 为 
远程 对 象 建立 了 实际 代理 (Real Proxy) 服务 器 存根 ， 并 在 全 局 名 字 空 间 对 它 进行 注册 ， 当 客户 选择 调用 
它 时 ， 可 以 在 运行 时 链接 来 支持 RMI. Channel 对 象 也 必须 被 服务 器 注册 。 


应 用 域 


= Assembly 





(Serialization) 


地 址 空间 


透明 代理 | 一 





应 用 域 
pi Assembly 
异常 
RMI (Deserializafion) 

地 址 空间 


图 18-14 远程 化 


TE: CLI 远程 化 机 制 允许 一 个 对 象 访问 不 同 应 用 域 中 的 对 象 ， 所 以 它 是 支持 RMI 的 一 种 基本 机 制 。 远 程 化 机 制 
包含 了 一 个 透明 代理 (等 同 于 客户 存根 ) 和 实际 代理 (服务 器 存根 )。 这 两 个 代理 使 用 一 个 通道 进行 通信 ， 


这 个 通道 可 能 是 机 器 间 的 TCP 连接 。 
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EPH, Channel 在 被 使 用 之 前 必须 要 注册 到 CLI。 当 客户 访问 远程 对 象 时 ， 要 创建 透明 代理 ( 客 
PER) 用 于 客户 方 的 调用 。 当 有 任何 形式 的 RPC 调用 发 生 时 ， 客 户 存根 必须 串 行 化 RMI 调用 ， 使 得 调 
用 和 它 的 所 有 参数 (包含 对 象 的 传 值 拷贝 ) 被 转换 成 网 络 数据 表示 的 一 种 中 间 形 式 。 

当 编 码 的 调用 到 达 实 际 代理 (服务 器 存根 ) 时 ， 它 被 解码 成 一 个 本 地 的 调用 来 执行 。 如 果 本 地 调用 有 
了 结果 或 出 了 异常 ， 实 际 的 代理 会 将 它们 返回 给 调用 对 象 。 

CLI 为 远程 化 实现 了 一 个 全 面 的 程序 设计 模型 ， 它 支持 不 同 种 类 的 通信 协议 ， 如 TCP, HTML 和 
SMTP (参见 联机 的 MSDN. NET Framework SDK QuickStart 教程 )。 这 人 允许 客户 和 服务 器 间 建 立 通用 的 交 
互 形式 ， 包 括 客户 对 象 异 步调 用 远程 对 象 的 能 力 ， 以 及 用 不 同 的 IPC 范 型 接收 结果 或 异常 的 能 力 。 


线程 
CLI 使 用 CLI 线程 (不 要 与 操作 系统 级 的 线程 混淆 ) 的 概念 支持 不 同 对 象 的 独立 执行 。CLI 采用 了 自 
己 的 线程 池 (threadpool) 一 一 一 组 对 象 ， 每 个 对 象 就 像 一 个 独立 的 计算 单元 。CLI 线程 可 以 根据 自己 的 同 


步 范 例 来 执行 ， 根 据 一 组 活动 对 象 中 存在 的 条 件 阻 塞 或 运行 。 这 和 所 有 基于 线程 的 系统 一 样 ， 这 人 允许 程序 
员 分 配 异 步 任 务 给 独立 的 线程 ， 从 而 不 必 由 一 个 单线 程 串 行 执行 。 

CLI 线 程 类 似 于 JVM RE, System. Threading 名 字 空 间 提供 了 一 个 ThreadPool 类 ， 程 序 员 在 必要 时 
可 以 利用 它 实 例 化 一 个 线程 ， 新 的 线程 继承 了 System. Threading.Thread 名 字 空 间 中 线程 的 行为 ， 并 被 提 
供 了 应 用 代码 来 执行 。 一 旦 线程 对 象 被 定义 ， 它 通过 调用 start () 成 员 函 数 来 启动 。 

线程 有 很 多 不 同 的 公有 方法 用 于 同步 : Interrupt () 、Join ()、Resume (), Sleep ()、SpinWait ()、 
Suspend () 和 Wait ( )。 这 些 成 员 函 数 可 用 来 控制 线程 的 状态 ， 如 Runnig、WaitSleepJoin、Sus- 
pendRequested. Suspended, AbortRequested, Stopped 和 Background, CLI 线程 是 独特 的 ， 因 为 它们 同时 
可 以 在 多 个 状态 中 ， 例 如 ， 线 程 可 以 在 Background 状态 和 Running, Suspended 和 AbortRequested 等 状态 。 
CLI 实现 确定 CLI 线程 是 否 被 映射 到 了 内 核 线程 。 (在 SSCLI 中 ， 线 程 被 映射 到 Windows XP 中 的 内 核 线 
程 ， 但 是 在 FreeBSD 中 ， 它 被 映射 到 POSIX 用 户 线程 。) 

安全 

.NET 框架 在 类 库 中 提供 了 一 个 加 密 的 工具 ， 在 CLI 中 有 认证 和 授权 机 制 。assembly 是 一 个 可 执行 的 
代理 (agent)， 它 必须 要 被 认证 来 确定 它 的 起 源 ， 并 确保 在 给 定 计算 环境 中 的 执行 得 到 了 assembly 和 计算 
环境 “所 有 者 ”的 授权 。CLI 使 用 基于 证 物 (evidence-based) 的 认证 和 和 授权， 意味 着 assembly 仅 在 证 物 存 
在 的 情况 下 才 可 被 执行 ， 开 发 人 员 授 权 assembly 的 使 用 并 且 计 算 环 境 有 权 使 用 assembly。 

assembly 可 以 有 一 个 简单 的 名 字 ， 也 可 以 有 一 个 复杂 的 名 字 。 简 单 的 名 字 是 类 似 于 其 他 计算 环境 中 使 
用 的 文件 名 (例如 ，autoexec.bat、cmd.com、testprogram. exe 或 myfile)。 复 杂 的 名 字 是 一 个 四 部 分 名 : 

BAF: 一 个 简单 的 名 字 为 操作 系统 文件 管理 器 标识 assembly. 

BRA: 这 是 一 个 四 部 分 号 ,标识 了 组 件 的 版 本 号 。 分 别 是 主导 、 次 号 、 生 成 号 和 版 本 号 。 

m XERE: 名 字 的 这 部 分 标识 了 assembly 的 语言 和 国家 代码 。 例 如 ,“en-US” 是 美国 英语 的 文化 信 

息 。 
BLAH: 这 或 者 是 一 个 8 字 节 的 公有 密 钥 ， 或 者 是 一 个 128 字 节 的 公有 密 钥 (消息 摘要 )， 它 唯 
一 地 标识 了 assembly 开发 商 。 

这 个 复杂 的 名 字 有 几 个 有 趣 的 特点 。 首 先 ， 组件 名 来 自 一 个 巨大 的 名 字 空 间 ， 在 名 字 空 间 内 ， 对 每 个 
开发 商都 有 一 个 真实 名 字 空 间 ， 一 个 限定 的 名 字 一 定 确保 是 唯一 的 。 

第 二 ， 版 本 域 强调 了 网 络 中 的 assembly 可 能 有 多 个 版 本 ， 这 用 来 解决 分 布 式 系统 (和 具有 许多 不 同 
assembly 的 系统 ) 中 的 一 个 严重 的 问题 : 一 旦 共享 软件 可 通过 动态 绑 定 机 制 访问 ， 当 同一 软件 的 新 版 本 发 
布 时 ,设计 者 如 何 确 信 不 再 需要 老 版 本 了 呢 ? 微软 通过 图 形 化 的 描述 “DLL hell” 来 表示 这 个 问题 
[Richter，2002]。RPC 包 一 开始 就 使 用 了 版 本 号 ， 打 算 使 用 远程 过 程 的 每 个 客户 可 用 名 字 和 版 本 来 标识 
Eo CLI 被 设计 成 可 区 别 assembly 版 本 ， 并 允许 assembly 的 多 个 版 本 同时 加 载 到 机 器 中 (这 称 为 并 户 
执行 )。 

第 三 个 部 分 ,文化 信息 域 ， 是 自 解释 的 ， 它 用 来 表示 CLI 中 采用 的 国际 化 或 本 地 的 信息 。 

最 后 一 部 分 ， 公 有 密 钥 ， 消 除了 名 字 的 其 余部 分 的 歧义 ， 有 效 地 为 每 个 开发 商 〈 或 开发 组 织 ) 提供 了 
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唯一 的 名 字 空 间 。 可 能 更 重要 的 是 ， 公 有 密 钥 用 来 确保 assembly 在 开发 后 不 会 被 他 人 修改 。 当 assembly 准 
备 部 署 时 ， 需 要 准备 内 容 的 消息 摘要 。 消 息 摘 要 是 用 开发 者 密 铀 加 密 过 的 assembly 所 有 内 容 的 散 列 。 如 果 
接收 方 重新 计算 散 列 ， 它 可 以 使 用 公有 密 钥 来 解密 消息 摘要 。 如 果 解 密 的 值 和 计算 的 散 列 并 不 准确 匹配 ， 
则 assembly 不 同 于 开发 者 部 署 的 assembly。 这 是 接收 者 认证 assembly 源 的 基本 原理 。 

当 一 个 assembly 被 加 载 到 一 个 可 执行 环境 中 时 ， 基 于 证 物 的 策略 管理 器 会 进行 认证 和 授权 的 检查 。 如 
前 面 的 图 中 所 描述 的 ， 第 一 步 是 认证 assembly 的 源 ， 确 保 assembly 就 是 原来 开发 商 所 创建 的 assembly, H 
略 管理 器 可 从 assembly 的 消息 摘要 中 提取 加 密 的 证 物 。 消 息 摘要 提供 了 有 关 assembly 源 的 证 物 (MER 
E), DIK assembly 希望 如 何 使 用 计算 环境 资源 (assembly 资源 访问 ) 的 描述 。 策 略 管理 器 然后 检查 部 署 系 
统 和 主机 系统 的 授权 权限 ， 来 确定 assembly 是 否 可 在 给 定 的 主机 环境 中 执行 。 


18.6 小 结 


分 布 式 程序 设计 环境 的 大 变化 是 分 布 式 应 用 程序 员 做 出 的 ， 首 先 作为 高 性 能 分 布 式 应 用 ， 然 后 作为 信 
息 分 布 式 应 用 。 在 传统 的 高 性 能 应 用 域 中 ， 特 定 的 方法 首先 被 用 来 构建 有 效 的 应 用 代码 。 在 20 世纪 90 年 
代 ， 为 这 个 问题 域 提供 足够 的 支持 的 需求 压力 导致 了 不 同 种 类 中 间 件 的 发 展 一 一 在 用 户 空间 中 执行 的 库 和 
运行 时 系统 (不 是 操作 系统 内 核 的 一 部 分 )。PVM/MPI 是 极为 成 功 的 ， 且 仍然 是 Beowulf 集群 的 一 个 重要 
组 件 。OSF DCE 提供 了 一 组 全 面 的 设施 来 支持 高 性 能 分 布 式 计算 。 

由 于 因特网 的 流行 ， 特 别 是 因特网 的 WWW 接口 ， 使 得 分 布 式 计算 为 大 众 可 用 。 在 Web 中 使 用 的 基 
本 分 布 式 模型 是 客户 - 服务 器 模型 ，web 浏览 器 使 用 HTTP 来 请 求 文件 ， 将 文件 内 容 从 服务 器 拷贝 到 客户 
机 器 。 这 建立 了 适合 内 容 发 布 的 分 布 式 程序 设计 环境 。 内 容 发 布 的 底层 技术 组 件 和 高 性 能 计算 基本 上 是 相 
同 的 ， 当 然 具 体 实现 可 以 进行 调整 。 这 促使 了 特别 适合 内 容 发 布 的 一 种 新 的 运行 时 环境 的 产生 。Java 为 分 
布 式 计算 定义 了 一 个 新 的 模型 ， 它 依赖 于 移动 代码 。CLR 扩展 了 Java 移动 代码 的 功能 ， 提 供 了 一 个 更 新 
的 技术 ， 包 括 用 于 实现 分 布 式 应 用 的 安全 多 语言 平台 。 


18.7 习题 


1. 18.2 节 中 的 SOR 程序 使 用 了 数据 或 功能 划分 吗 ? 

. Chaotic 是 SOR 的 一 个 变种 ， 在 计算 它们 新 的 x lil 的 估算 后 ， 个 工作 者 进程 不 需要 考虑 同步 。 
如 何 改 变 18.2 节 显 示 的 代码 来 实现 chaotic relaxation? 

. 基于 本 章 的 描述 ， 说 明 Sun RPC 和 DCE RPC 闻 有 什么 区 别 ? 

. 在 DCE 分 布 式 文件 系统 中 ， 令 牌 的 概念 如 何 用 于 简化 文件 一 致 性 ? 

. web 代理 服务 器 的 目的 是 什么 ? 

. 通过 什么 可 以 阻止 Java applet 从 客户 机 器 中 “窃取 ”信息 ? 

. 在 CLR 中， 什么 是 被 管理 的 组 件 ? 

. 使 用 PVM 或 DCE 实现 SOR 程序 。 

. 使 用 PVM 或 DCE 实现 第 9 章 中 的 求 积 分 的 程序 。 
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第 19 章 设计 策略 


在 以 前 的 章节 里 ， 我 们 考虑 了 操作 系统 各 个 部 分 技术 的 细节 : 进程 和 资源 管理 、 设 备 管理 、 存 储 管理 
和 文件 管理 。 第 15 章 到 第 18 章 描 述 了 如 何 对 进程 和 资源 进行 抽象 来 适应 计算 机 网 络 。 因 为 已 经 详细 研究 
了 操作 系统 的 各 个 部 分 ， 本 章 的 目的 是 回 到 操作 系统 的 整个 设计 上 (首先 在 第 3 章 中 介绍 过 )。 

操作 系统 是 一 个 巨大 的 软件 集 ， 所 以 设计 和 构建 操作 系统 需要 涉及 传统 的 软件 工程 方法 学 。 然 而 ， 因 
为 操作 系统 行为 上 的 性 能 约束 ， 因 为 操作 系统 的 复杂 的 输入 /输出 关系 ， 开 发 商 试 图 使 用 与 其 他 大 型 软件 
系统 不 同 的 准则 来 设计 操作 系统 。 除 了 学 习 如 何 从 单个 的 技术 组 装 操作 系统 外 ， 我 们 将 解释 其 他 的 一 些 影 
响 设 计 者 和 实现 者 的 因素 。 


19.1 设计 考虑 


操作 系统 定义 和 管理 应 用 程序 执行 的 计算 环境 ， 这 个 需求 的 一 部 分 是 管理 共享 资源 ， 另 一 部 分 是 提供 
应 用 程序 员 易 于 使 用 的 软件 抽象 。 在 以 前 章节 的 学 习 中 ， 你 了 解 到 操作 系统 的 功能 。 设 计 高 性 能 的 不 同 函 
数 集 常 常 需要 折 中 地 考虑 实现 方案 。 有 许多 约束 和 需求 会 调整 我 们 的 功能 选择 。 我 们 首先 重新 考虑 一 下 本 
书 中 开始 介绍 的 和 程序 员 所 了 解 的 关键 的 设计 因素 ， 然 后 研究 操作 系统 实现 策略 和 实例 。 


19.1.1 性 能 


有 一 个 关于 选择 房产 的 老 故事 : 三 个 最 重要 的 准则 是 位 置 、 位 置 、 还 是 位 置 。 这 意味 着 倍 置 在 确定 房 
产 的 价值 中 是 最 重要 的 方面 。 我 们 可 以 将 这 种 说 法 应 用 到 操作 系统 中 ， 可 以 说 在 操作 系统 中 三 个 最 重要 的 
准则 是 性 能 、 性 能 、 还 是 性 能 。 尽 管 CPU 和 总 线 的 速度 在 日 益 增加 ， 主 存 的 费用 在 减少 ， 操 作 系统 仍然 
是 一 个 开销 ， 终 端 用 户 仅 仅 能 够 容忍 它 ， 它 并 不 是 用 户 想 要 的 。 最 糟糕 的 是 它 的 性 能 ， 在 试图 完成 计算 机 
上 的 相关 工作 时 ， 它 变 得 更 具 侵略 性 。 我 们 看 到 了 很 多 不 同 的 情形 ， 操 作 系统 设 计 者 试图 找到 有 适当 计算 
复杂 度 的 算法 〈 例 如 ， 调 度 )。 尽 管 我 们 在 以 前 的 讨论 中 并 没有 强调 这 个 事实 ， 在 选择 实现 操作 系统 功能 
时 ， 出 于 对 性 能 的 考虑 ， 常 常 不 能 使 用 一 些 想 要 的 特征 。 例 如 ， 低 级 文件 系统 并 不 支持 结构 化 记录 ， 最 主 
要 是 它们 的 性 能 开销 太 大 。 

性 能 考虑 的 另 一 个 方面 就 是 编写 代码 的 风格 。 如 果 你 阅读 了 Linux 内 核 源 代码 ， 你 会 惊奇 于 标号 和 
goto 语句 的 频繁 使 用 。 这 是 因为 在 运行 操作 系统 代码 时 ， 要 尽 可 能 地 节省 机 器 执行 周期 。 这 导致 了 执行 代 
码 运 行 更 快 ， 但 也 意味 着 源 代 码 难于 编写 、 难 于 阅读 ， 甚 至 更 难 修改 。 

在 最 近 的 十 年 中 ， 程 序 设计 技术 出 现 了 重大 的 革新 。Smalltalk 奠定 了 面向 对 象 程 序 设计 语言 的 生存 空 
间 ，C++ 使 得 这 种 思想 盛行 起 来 ， 人 们 可 以 用 这 种 技术 编写 大 型 的 应 用 程序 。Java 开发 人 员 意识 到 C++ 
的 力量 ，Java 只 是 限制 了 指针 的 自由 使 用 ， 因 此 ，Jjava 语言 也 可 认为 是 C++ 的 一 个 版 本 ， 它 没有 指针 的 
使 用 ， 这 使 得 Java 可 以 用 于 构建 一 个 安全 源 代码 的 程序 设计 环境 。 

今天 ， 主 要 的 操作 系统 仍然 是 用 C 来 实现 的 ， 不 是 C++ ， 不 是 Java， 也 不 是 任何 解决 当代 软件 工程 的 其 他 
语言 。 这 是 为 什么 呢 ? 这 是 因为 可 信 软 件 需要 有 尽 可 能 快 的 速度 。( 有 趣 的 是 ， 操 作 系统 并 没有 包含 非常 多 的 汇 
编 语 言 ， 即 使 用 它 编写 可 以 比 C 代 码 更 快 ， 这 是 因为 很 难 写 出 可 信 的 汇编 语言 代码 ， 它 的 执行 速度 要 比 用 C 写 
的 快 。 操 作 系统 内 核 中 超过 95% 的 代码 是 使 用 C 语言 编写 的 ， 其 余 的 少 部 分 使 用 汇编 语言 编写 。) 

面向 对 象 的 语言 在 应 用 级 很 好 地 被 接受 了 ， 部 分 原因 是 基于 可 重用 和 可 维护 性 的 考虑 。C++ 程序 并 
不 一 定 比 C 程序 执行 得 慢 (毕竟 ， 大 部 分 的 C++ 编译 器 实际 上 是 C 编译 器 并 带 有 一 个 C 预 处 理 程序 ) 。 然 
而 ， 转 换 系统 也 引 人 了 一 个 执行 效率 的 问题 ，C++ 函数 是 间接 地 通过 函数 调用 表 来 访问 的 需要 实现 虚 
函数 )。 这 被 大 部 分 的 操作 系统 实现 者 看 成 是 不 可 接受 的 。 

将 软件 作为 类 和 子 类 来 设计 有 一 个 隐 含 的 性 能 开销 。 因 为 对 象 在 它 的 公共 接口 后 隐藏 了 它 的 实现 ， 甚 
至 最 简单 的 操作 如 从 对 象 得 到 一 个 值 也 包括 了 一 个 函数 调用 ， 它 比 存 储 访问 有 更 大 的 开销 。 抽 象 的 程序 设 
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计 对 于 操作 系统 的 实现 来 说 常常 代价 太 大 。 

因为 Java 的 引进 ， 有 一 个 研究 阵营 对 将 JVM 作为 操作 系统 来 实现 很 感 兴趣 。 尽 管 研 究 人 员 已 经 实现 
了 这 样 的 操作 系统 ， 但 在 商业 上 都 没有 成 功 。 这 是 由 于 它 的 性 能 较 低 。 相 反 ，JVM 被 移植 在 不 同 的 操作 
系统 上 运行 。 


19.1.2 可 信和 软件 


在 第 14 章 中 ,我 们 考虑 了 保护 和 安全 的 主要 技术 ,我 们 将 问题 分 成 认证 、 授 权 和 加 密 。 在 操作 系统 
中 ， 一 种 特殊 的 安全 形式 〈 与 授权 有 关 ) 是 极为 重要 的 。 如 我 们 所 看 到 的 ， 内 核 是 作为 执行 在 核心 态 下 的 
代码 体 来 定义 的 一 一 它 是 仅 能 执行 特权 指令 的 软件 。 基 本 的 授权 机 制 试图 阻止 对 内 核 代 码 的 非 授 权 的 访问 
(或 当 CPU 在 核心 态 下 执行 非 内 核 代 码 )。 自 陷 指 令 和 中 断 机 制 是 隐 式 的 授权 机 制 。 其 思想 就 是 没有 线程 
可 以 使 得 任何 代码 在 核心 态 下 执行 ,除非 它 自 陷 到 以 前 定义 过 的 内 核 代码 。 除 了 中 断 ， 没 有 其 他 的 事件 可 
以 引起 计算 机 在 核心 态 下 执行 。 中 断 和 自 陷 设 计 是 确保 CPU 仅 执 行 可 信 操 作 系统 代码 的 基本 机 制 。 

内 核 设计 的 第 二 个 重要 方面 是 准确 地 确定 哪些 代码 应 该 在 内 核 执 行 ， 哪 些 代码 不 应 该 。 在 假定 正常 的 
操作 系统 功能 在 必要 时 可 以 加 入 到 内 核 功能 中 的 前 提 下 ,早期 的 UNIX 内 核 的 构建 采用 了 最 小 的 功能 集 。 
内 核 仅 需要 有 一 个 最 小 的 逻辑 代码 来 确保 正确 的 操作 。 近 年 来 ，UNIX 内 核 以 不 可 控制 的 速率 在 增长 ， 当 
代 的 UNIX 内 核 比 最 少 的 功能 集 有 更 多 的 功能 。 

这 周期 性 地 导致 了 操作 系统 设计 者 又 回 到 最 小 内 核 的 设计 上 ， 设 计 者 已 经 转 到 微 内 核 的 设计 上 ， 试 图 
实现 仅 在 核心 态 下 执行 必 不 可 少 的 操作 系统 代码 ( 见 19.4 节 )。 今 天 ， 设 计 又 重新 回 到 “小 的 就 是 美的 ” 
这 个 方法 ， 部 分 是 受到 需要 在 小 的 移动 计算 机 上 运行 最 小 的 操作 系统 的 影响 。 

最 后 的 需求 是 简单 : 操作 系统 的 核心 应 该 运行 在 核心 态 ， 内 核 应 该 尽 可 能 小 ， 它 仅 实 现 确保 整个 操作 
系统 正确 操作 的 那 部 分 必要 功能 。 


19.1.3 ”模块 化 


随 着 软件 工程 开始 作为 计算 机 科学 的 学 科 出 现 ， 软 件 模块 化 成 为 一 个 主要 的 设计 需求 。Parnas 写 了 一 
篇 关于 模块 化 软件 准则 的 论文 ， 它 基本 表达 了 软件 模块 的 思想 [Parmas，1972]。 在 模块 化 背后 的 基本 技术 
是 设计 软件 时 应 该 使 用 “分 而 治之 ”的 技术 。 每 个 单元 一 一 一 个 模块 应 该 被 设计 使 得 它 重新 实现 时 不 会 影 
响 其 他 的 模块 。 即 模块 仅 使 用 定义 好 的 、 固 定 的 、 公 共 接 口 来 进行 交互 。 粗 略 地 说 ， 典 型 的 划分 策略 是 将 
数据 和 功能 封装 在 模块 中 ,使 得 模块 间 的 引用 最 少 化 。 

确定 模块 内 部 操作 的 正确 性 与 模块 的 大 小 有 关 : 大 模块 的 正确 性 不 易 证 明 也 难于 维护 ， 然 而 小 的 模块 
在 易于 保证 正确 性 的 基础 上 还 易于 设计 和 维护 。 因 为 模块 仅 通过 导出 的 接口 来 通信 ， 模 块 间 通 信 的 形式 和 
风格 关系 到 接口 的 复杂 性 。 当 模块 上 的 接口 数 增加 时 ， 确 定 模 块 外 部 操作 的 正确 性 的 任务 也 增加 了 ， 同 
时 ， 模 块 的 使 用 也 变 得 更 复杂 。 然 而 ， 如 果 接 口 的 数目 较 少 ， 则 限制 了 不 同 模块 内 部 的 通信 效率 和 形式 。 
假定 模块 接口 是 用 过 程 调用 实现 的 ， 当 模块 A 中 的 组 件 尺 想 要 知道 模块 B 中 的 变量 X 的 值 时 ， 它 不 能 将 
X 作为 本 地 变量 来 读 取 ， 相 反 ，R 必须 调用 B 的 接口 S 来 请 求 B 读 取 X， 然 后 将 它 的 值 返 回 给 R。 

软件 设计 者 的 任务 就 是 考虑 如 何 设计 模块 来 实现 功能 ， 使 得 它们 满足 可 维护 性 /正确 性 需求 以 及 性 能 
需求 。 操 作 系统 是 逻辑 的 软件 模块 集 ， 每 个 模块 封装 了 用 来 完成 任务 的 信息 ， 并 为 其 他 的 模块 提供 了 接 
口 ， 其 他 的 模块 通过 这 个 接口 就 可 以 获得 服务 。 实 际 上 ， 操 作 系 统 主要 是 用 下 面 四 种 方法 ( 见 图 19-1) 中 
的 一 种 来 设计 的 : 单 内 核 设计 (单个 的 模块 )、 模 块 化 设计 、 可 扩展 设计 或 层次 化 设计 。 大 部 分 操作 系统 
采用 了 其 中 的 一 种 方法 ， 但 是 也 可 能 会 综合 使 用 。 我 们 来 考虑 在 模块 化 方法 中 的 一 些 实际 的 问题 。 

传统 上 ， 操 作 系统 的 核心 是 进程 和 资源 管理 功能 。 设 备 和 存储 器 是 操作 系统 管理 资源 的 具体 实例 ， 文 
件 是 存储 设备 的 抽象 。 操 作 系 统 技术 是 围绕 着 进程 和 资源 管理 、 设 备 管理 、 存 储 管理 和 文件 管理 来 发 展 的 
( 见 图 19-2)。 本 书 在 有 关 操 作 系统 主题 的 讨论 中 都 反映 了 模块 化 思想 。 然 而 ， 为 实现 操作 系统 的 性 能 和 安 
全 ， 系 统 并 不 一 定 遵循 理想 的 功能 组 织 结构 。 

操作 系统 的 一 个 重大 设计 问题 是 如 何在 复杂 的 、 可 信 的 、 有 效 的 软件 中 实现 逻辑 管理 器 。 例 如 ， 将 虚 
拟 存储 系统 操作 的 理论 作为 独立 的 主题 来 讨论 是 有 用 的 ， 如 果 设 备 管理 器 在 页 上 执行 /JO， 它 会 影响 页 置 
换 策 略 。 同 样 地 ， 调 度 器 也 会 与 设备 管理 器 和 存储 管理 器 交互 ， 文 件 管理 器 也 依赖 于 设备 管理 器 等 。 图 
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19-3 概括 了 以 前 章节 描述 的 功能 ， 并 解释 了 这 些 功 能 间 的 关系 和 交互 。 在 图 中 ,， 文件、 设备、 存储 器 和 资 
源 管理 器 是 显 式 的 。 注 意 到 进程 管理 器 在 功能 上 被 细 分 成 核心 进程 管理 器 、 调 度 器 、IPC 和 同步 模块 。 保 
护 、 死 锁 和 中 断 处 理 程序 也 根据 系统 的 设计 分 布 在 不 同 的 模块 中 。 


应 用 软件 
应 用 软件 


其 他 系统 软件 
其 他 OS 功 能 
其 他 OS 功 能 


内 核 功能 


a) 单一 模块 b) 模块 化 内 核 


应 用 软件 
其 他 系统 软件 
其 他 系统 软件 


其 他 OS 功 能 


c) 可 扩展 内 核 d) 层次 化 内 核 


图 19-1 软件 组 织 结构 
注 : 图 中 显示 的 四 种 软件 模块 化 方法 用 来 实现 不 同 的 操作 系统 。a) 单 内 核 方法 使 用 一 个 单个 的 模块 。b) 将 操作 
系统 功能 进行 划分 并 在 不 同 的 模块 中 实现 它们 。c) 可 扩展 的 核心 程序 设计 提供 了 支持 核心 程序 功能 实现 的 
框架 。d) 是 模块 化 的 设计 ， 模 块 间 有 一 个 全 排序 关系 。 































图 19-2 操作 系统 功能 组 织 结构 . 
注 : 该 图 解释 了 操作 系统 功能 逻辑 模块 化 ， 但 它 在 操作 系统 软件 设计 中 很 少 被 使 用 。 
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图 19-3 ”功能 交互 
TE: 逻辑 模块 化 的 效率 太 低 ， 不 能 把 操作 系统 多 辑 功能 模块 作为 操作 系统 模块 来 实现 。 本 图 显示 了 图 19-2 Hg 
辑 模块 间 的 交互 。 


设计 现代 操作 系统 的 一 个 挑战 〈 对 一 个 单 处 理 机 ) 就 是 根据 外 部 的 需求 集 ， 如 何 组 织 软件 来 实现 这 些 
功能 。 模 块 化 设计 原理 建议 为 了 最 小 化 模块 间 的 交互 ， 应 该 对 功能 打包 。 正 确 性 原理 建议 应 该 对 整个 系统 
的 功能 进行 划分 ， 使 得 任何 模块 不 必 太 复杂 。 操 作 系 统 组 织 的 基本 问题 是 定义 模块 ， 使 得 它 满足 正确 性 、 
性 能 、 可 维护 性 和 灵活 性 。 设 计 者 并 不 追求 如 何 最 好 地 完成 任务 ， 因 为 细节 性 的 设计 问题 会 极 大 地 影响 模 
块 化 策略 。 例 如 ， 死 锁 的 预防 策略 在 所 有 资源 管理 器 中 实现 ， 但 是 检测 和 恢复 技术 作用 于 进程 管理 器 、 存 
储 管理 器 等 。 


19.1.4 可 移植 性 


传统 上 ， 操 作 系 统 的 可 移植 性 并 不 是 主要 的 问题 ， 尽 管 它 是 建立 “小 就 是 美 ” 的 UNIX 内 核 的 最 初 动 
机 。 现 代 操 作 系 统 常 常 是 在 大 量 不 同 的 计算 平台 上 实现 的 ,操作 系统 设计 者 也 开始 关心 可 移植 性 。 微 软 在 
Windows NT/2000/XP 操作 系统 中 引入 了 一 种 技术 ， 即 硬件 抽象 层 (hardware abstraction layer, HAL) 
[Solomon and Russinovich，2000] ， 其 思想 被 其 他 的 操作 系统 和 大 型 软件 包 使 用 得 越 来 越 多 。HAL 是 低层 
的 软件 模块 ， 它 将 关键 的 硬件 行为 转换 成 标准 化 的 行为 集 ，HAL RAA A DLL 来 导出 。 当 需要 确定 
主机 硬件 行为 的 方式 时 ， 操 作 系 统 会 调用 DLL 中 的 函数 。 在 需要 一 个 具体 的 硬件 地 址 时 ， 这 人 允许 Win- 
dows NT/2000/XP 代码 调用 HAL 函数 (而 不 是 仅 使 用 硬 连 线 的 地 址 )。 例 如 ， 设 备 中 断 的 地 址 常常 由 微 处 
理 器 体系 结构 来 确定 ， 并 且 每 个 微 处 理 器 上 的 设备 地 址 也 会 不 同 。HAL 接口 允许 Windows NT/2000/XP 
经 由 函数 来 访问 中 断 地 址 ， 而 不 是 直接 使 用 硬件 地 址 。 

对 任何 具体 的 微 处 理 器 的 HAL 实现 ， 经 由 HAL API 上 的 相应 函数 提供 了 具体 硬件 信息 。 这 意味 着 可 
以 在 DEC 公司 的 Alpha 处 理 器 上 使 用 和 Intel Pentium 处 理 器 上 相同 的 操作 系统 源 代 码 。 它 也 意味 着 Win- 
dows 2000 设备 驱动 程序 不 用 改变 就 可 以 在 Windows 95/98 上 运行 。 

HAL 的 使 用 是 透明 的 ， 应 用 程序 员 一 般 来 说 并 不 关心 计算 机 中 处 理 器 芯片 的 类 型 。Windows NT/ 
2000/XP 提供 了 一 个 固定 的 服务 集 ， 它 并 不 依赖 于 硬件 平台 类 型 。 

HAL 在 操作 系统 和 硬件 之 间 引 入 了 一 个 间接 层 ， 这 意味 着 使 用 它 会 有 一 个 明显 的 性 能 开销 。 然 而 ， 
有 了 HAL， 无 须 花 费 太 大 的 努力 就 可 以 将 操作 系统 移植 到 不 同 的 硬件 平台 上 。Windows 设计 者 认为 HAL 
的 好 处 抵 销 了 它 带 来 的 性 能 损失 。 

在 Linux 中 ， 这 种 移植 性 可 通过 源 代码 组 织 结构 实现 。 也 就 是 说 ， 源 代码 可 以 组 织 成 体系 相关 的 和 体 





Rt R 483 





系 无 关 的 目录 。Linux FHA Windows HAL 相 比 ， Linux 的 结构 化 不 如 Windows。 


19.2 单一 内 核 


在 单一 内 核 中 ， 所 有 的 软件 和 数据 结构 放置 在 一 个 逻辑 模块 中 ， 在 操作 系统 软件 的 任何 部 分 间 没 有 蝗 、 
显 的 接口 (AA 19-1a)。 单 一 内 核 操作 系 统 在 实现 之 前 ， 不 需要 太 多 的 分 析 ， 并 且 它 十 分 高 效 。 然 而 ， 它 
却 难 以 理解 和 维护 ， 因 此 也 难以 确定 它们 是 否 按期 望 的 方式 工作 。 我 们 考虑 一 下 进行 单一 内 核 设计 时 需 考 
虑 的 一 些 问题 。 

传统 的 程序 划分 是 基于 数据 结构 的 ， 操 作 系 统 数据 结构 包含 了 资源 请 求 、 进 程 和 线程 描述 表 、 文 件 描 
述 表 、 设 备 描述 表 、 信 号 量 、 死 锁 信息 、 虚 拟 存 储 表 等 。 本 书 讨论 的 每 个 概念 都 需要 一 些 形式 的 数据 结构 
来 描述 ， 并 跟踪 系统 的 状态 。 操 作 系统 必须 在 安全 空间 中 保持 数据 结构 ， 使 得 它 可 以 依赖 正确 的 状态 信息 
实现 它 自 己 的 算法 。 

以 数据 结构 的 使 用 为 基础 对 操作 系统 进行 划分 是 非常 困难 的 ， 例 如 ， 在 分 配 CPU 给 等 候 进程 的 模块 
中 封装 调度 信息 是 很 好 的 想法 ， 然 而 ， 调 度 器 在 进行 明智 的 调度 决策 之 前 需要 知道 进程 的 交换 状态 。 同 样 
地 ， 交 换 程序 在 决定 将 进程 换 出 之 前 ， 必 须知 道 有 关 存储 缓冲 的 I/O 操作 。 设 计 者 发 现 划分 可 以 最 小 化 各 
个 部 分 之 间 的 通信 ， 但 是 这 个 最 小 化 还 是 不 可 接受 的 。 例 如 ， 当 硬件 的 运算 速度 或 信息 传输 带宽 较 低 时 ， 
这 种 划分 的 效率 就 可 能 太 低 了 。 性 能 因素 要 比 解决 方案 中 的 软件 工程 设计 方面 更 为 重要 。UNIX 内 核 是 音 
一 内 核 组 织 的 最 突出 例子 ， 可 能 MS-DOS 也 不 例外 。 


E. 





示例 : MS-DOS . 

MS-DOS 是 支持 单 任务 的 单一 内 核 (尽管 在 CPU 中 它 并 不 使 用 核心 态 )。 基 本 的 操作 系统 内 核 是 全 部 
在 只 读 存储 器 (ROM) 中 驻 留 的 基本 输入 /输出 系统 (BIOS) 例 程 ， 以 及 两 个 可 执行 文件 I0.SYS 和 MS 
DOS.SYS [Chappell，1994]。 当 计算 机 启动 并 运行 DOS Ht, CMOS 存储 器 和 处 理 器 都 要 求 获得 运行 DOS 的 
各 种 参数 。 接 下 来 ， 从 引导 盘 上 获得 一 个 512 字 节 的 引导 加 载 程 序 ， 然 后 执行 它 开始 加 载 10.SYS。 当 将 
I0.SYS 加 载 到 第 一 个 肩 区 后 ， 引 导 加 载 程序 就 跳 到 I0.SYs 中 完成 加 载 过 程 。10.Sys 随后 就 加 载 MS- 
DOS. SYS， 然 后 读 用 户 定义 的 CONFIG. SYS 和 AUTOEXEC. BAT 来 确定 是 否 将 被 称 作 驱 动 程序 (drivers) 的 OS 扩 
展 部 分 增加 到 内 核 中 。 

这 些 驱动 程序 包括 可 加 载 的 设备 驱动 程序 (第 5 章 所 描述 的 )， 以 及 存储 管理 扩展 (例如 ;参见 
HIMEM.SYS)。 也 许 在 这 些 设备 驱动 程序 中 最 有 意义 的 应 该 是 FMM386. EXE。 最 初 的 Intel 8086 CPU 中 没有 模 
式 位， 但 是 80386 中 有 。 这 个 特殊 的 驱动 程序 就 构建 了 一 个 管理 模式 环境 ，DOS 的 其 余部 分 都 是 作为 单个 
用 户 模式 任务 来 执行 的 ， 这 样 就 允许 管理 模式 任务 从 普通 的 DOS 任务 中 分 离 出 来 执行 。 

' _ Žž |B 





E 
示例 : UNIX 内 核 

UNIX 于 1973 年 在 ACM SIGOPS 会议 上 由 Ritchie 和 Thompson 引入 ， 并 且 会 议论 文 出 现在 下 一 年 的 
《Communication of the ACM) 杂志 中 [1974]。Ritchie 和 Thompson 介绍 的 软件 版 本 一 般 不 对 AT&T 贝尔 
实验 室 以 外 的 人 公开 ， 但 是 UNIX 的 设计 在 论文 上 公开 发 表 了 。 操 作 系统 是 当时 会 议 的 核心 ， 被 讨论 的 其 
他 操作 系统 都 非常 大 且 复杂 ， 用 于 管理 大 型 机 。 相 反 ，UNIX 是 一 个 小 的 操作 系统 ， 用 来 管理 一 个 小 的 实 
验 用 的 小 型 机 。 

操作 系统 研究 人 员 对 UNIX 的 创新 的 方法 感到 很 兴奋 ， 他 们 提出 要 得 到 源 代码 的 一 份 拷贝 来 进行 自己 
的 实验 。ATE&T 为 软件 建立 了 一 个 许可 证 ， 这 样 大 学 和 研究 机 构 可 以 购买 一 个 源 代码 许可 证 ， 然 后 使 用 源 
代码 作为 操作 系统 和 其 他 实验 的 基础 。 

在 UNIX 公开 给 公众 时 ，IBM 的 OS/360 操作 系统 是 主流 的 商业 操作 系统 。 客 户 对 操作 系统 发 行 版 本 
中 的 bug 感到 不 满意 ，IBM 在 努力 地 开发 一 个 健壮 的 版 本 。 在 1975 年 ，IBM 的 首席 开发 师 写 了 一 篇 文章 
来 解释 创建 和 管理 操作 系统 为 什么 这 么 困难 。 问 题 最 终归 结 到 OS/360 的 复杂 性 [Brooks，1975]。 许 多 研 
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究 人 员 意 识 到 UNIX 中 使 用 的 小 的 、 单 一 内 核 方法 的 价值 ， 这 与 OS/360 和 其 他 主流 的 操作 系统 形成 了 鲜 
明 对 比 。Ritchie 和 Thompson 的 论文 ， 及 Brook 的 实验 报告 ， 为 建立 小 的 、 单 一 内 核 结 构 系 统 提供 了 可 行 
性 和 可 接受 性 证 明 。 
早期 的 UNIX 标识 出 对 操作 系统 有 效 性 和 正确 性 至 关 重要 的 那 部 分 操作 ， 然 后 在 内 核 中 仅 实 现 这 些 功 
能 。 其 思想 是 内 核能 够 提供 一 种 平台 ， 其 他 的 操作 系统 服务 可 以 作为 应 用 程序 增加 在 上 面 。 例 如 ， 内 核 应 
该 实现 一 个 字 节 流 文件 系统 ， 如 果 用 户 应 用 需要 面向 记录 的 文件 ， 记 录 实 现 可 用 字 节 流 文件 机 制 上 的 库 代 
码 来 实现 。 内 核 是 最 少 化 的 操作 系统 功能 集 ， 用 户 空 间 代码 可 用 来 支持 特定 的 应 用 域 。 从 这 种 意义 上 说 ， 
操作 系统 的 设计 应 该 是 层次 化 结构 ， 而 不 是 单一 内 核 设 计 ， 因 为 特定 域 的 操作 系统 功能 将 作为 层 来 增加 到 
内 核 中 。 
本 书 把 Liunx 内 核 的 许多 细节 性 的 方面 作为 例子 列 出 来 了 ，Linux 内 核实 现 是 典型 的 单一 内 核 结 构 。 
下 面 是 在 以 前 章节 的 例子 中 看 到 过 的 一 些 概念 ; 
m 传统 的 UNIX 内 核 是 作为 单一 逮 辑 模块 实现 的 ， 内 核 提供 了 单个 的 系统 接口 ， 它 是 在 系统 调用 表 中 
定义 的 。 用 户 空间 软件 经 由 系统 调用 表 来 调用 内 核 水 数 。 
n 当 创建 一 个 进程 或 线程 时 ， 会 创建 一 个 进程 描述 表 数 据 结构 。 进 程 描述 表 域 可 被 内 核 的 任 一 部 分 读 
取 和 和 修改。 例如 ， 虚 拟 存储 管理 代码 更 新 与 进程 地 址 空间 和 存储 分 配 相关 的 进程 描述 表 域 。 
昌文 件 描述 表 是 inode, inode 保存 在 辅 存 设备 上 。 当 文件 被 打开 时 ， 文 件 管理 器 得 到 inode， 并 将 它 
加 载 到 存储 器 的 inode 表 中 。 因为 UNIX 试图 缓冲 文件 信息 ， 存储 管理 器 、 设 备 管理 器 和 文件 管理 
器 都 会 操纵 进程 描述 表 和 inode 的 不 同 域 。 
n 设备 管理 器 是 作为 内 核 设施 来 实现 的 ， 它 将 请 求 传 递 给 设备 驱动 程序 ， 并 为 设备 驱动 程序 提供 不 同 
的 服务 (如 动态 存储 分 配 和 缓冲 )。 
Linux 单一 内 核 的 其 他 方面 将 在 第 20 章 进行 描述 。 





19.3 ”模块 化 组 织 结构 


模块 化 内 核 (modular kernel) 是 按 功能 划分 成 逻辑 独立 的 部 件 ， 在 相关 模块 间 具 有 良 定义 的 接口 。 与 
单一 内 核 设计 相 比 ， 模 块 化 操作 系统 是 使 用 不 同 的 程序 模块 或 进程 来 实现 的 (参见 图 19-tb)。 在 这 里 ， 功 
能 封装 与 性 能 相 比 ， 工 程 上 的 重心 偏向 于 前 者 。 如 同 所 有 此 类 软件 体系 结构 一 样 ， 采 取 模 块 化 的 内 核 比 使 
用 单一 内 核 组 织 的 软件 更 容易 维护 和 修改 。 数 据 抽象 允许 模块 隐藏 数据 结构 的 实现 细节 ， 这 样 便 可 以 不 改 
变 接 口 来 修改 模块 。 与 单一 内 核实 现 相 比 ， 模 块 化 的 代价 是 潜在 的 性 能 退化 。 因 此 ， 在 性 能 和 模块 需求 之 
间 设 计 一 个 折衷 的 结构 可 能 是 困难 的 。 模 块 化 的 附加 好 处 是 系统 能 作为 抽象 数据 类 型 或 对 象 来 实现 。 

尽管 有 人 争论 说 可 扩展 内 核 是 模块 化 组 织 的 一 种 特殊 情况 (这 种 组 织 结构 当前 被 广泛 应 用 )， 但 是 主 
流 的 商业 化 操作 系统 均 未 纯粹 采用 模块 化 组 织 结构 。 一 个 采用 模块 化 方法 研究 操作 系统 最 好 的 例子 就 是 面 
向 对 象 的 Choices 操作 系统 。 





示例 : Choices 一 一 面向 对 象 的 操作 系统 

Choices 是 一 个 实验 研究 性 的 操作 系统 ， 它 是 采用 面向 对 象 语言 设计 和 建立 的 ， 因 此 它 是 模块 化 操作 
系统 的 示例 。Choices 系统 的 目标 是 能 够 通过 快速 原型 进行 各 种 实验 以 及 易于 将 基本 设计 移植 到 新 硬件 。 
Choices 论证 了 面向 对 象 技术 是 如 何 能 够 被 用 于 操作 系统 的 设计 和 实现 的 。 本 示例 解释 了 Choices 如 何在 它 
的 设计 环境 中 使 用 类 型 层次 。 

框架 

Choices 重点 使 用 了 对 象 框架 来 定义 操作 系统 的 基本 结构 ， 它 采用 类 型 层次 来 说 明 用 于 原型 测试 床 以 
及 任意 特殊 硬件 目标 的 特殊 特征 。 框 架 中 显 式 地 把 操作 系统 中 的 模块 标识 为 一 个 基础 类 的 集合 ， 然 后 在 基 
础 类 之 间 建 立 一 般 的 交互 和 关系 。 当 在 一 个 新 的 硬件 平台 上 实现 Choices 时 ， 模 块 的 功能 、 接 口 以 及 之 间 
的 交互 都 已 经 被 定义 。 模 块 的 实现 是 从 基础 类 继承 的 ， 并 针对 目标 硬件 重新 定义 了 实现 。 

在 Choices 中 ， 对 象 模型 化 应 用 程序 接口 、 资 源 、 机 制 、 策 略 以 及 硬件 接口 。 所 有 的 应 用 程序 都 被 认 
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为 是 面向 对 象 程 序 ， 可 以 操纵 其 他 对 象 并 且 使 用 继承 和 多 态 性 来 定义 它们 的 行为 。 计 算 的 单元 是 内 核对 
象 ， 同 时 有 相关 的 对 象 代理 在 用 户 空 间 中 执行 。 当 一 个 ObjectProxy 类 型 的 对 象 发 送 一 个 消息 到 相应 的 内 
核对 象 时 ， 就 会 发 生 一 次 操作 系统 “调用 ”。 

操作 系统 的 结构 可 以 在 框架 结构 中 获得 。 框 架 结构 描述 了 一 组 子 框架 ， 用 于 作为 操作 系统 部 分 的 基 
类 。 基 础 框架 建立 了 一 个 通用 的 环境 ， 其 中 有 Choices 的 进程 、 地 址 空间 以 及 存储 对 象 ， 分 别 作为 类 型 
Process, Domain 和 MemoryObject 的 对 象 执行 。 子 框架 描述 了 存储 管理 器 、 进 程 管理 器 、 文 件 管理 器 以 及 
消息 传递 系统 是 如 何 结合 在 一 起 来 支持 进程 、 地 址 空间 以 及 存储 对 象 的 。 

使 用 框架 实现 存储 管理 器 

例如 ， 图 19-4 是 受到 了 Campbell et al. [1993] 中 一 个 类 似 图 的 启示 ， 其 中 说 明了 存储 管理 器 的 抽象 控制 
流 图 ， 数 字 表示 消息 的 序列 ， 和 矩形 表示 存储 管理 器 的 主要 组 成 部 件 ， 箭 头 表 示 它 们 之 间 的 控制 流 方向 。 替 代 
的 图 中 表现 了 数据 流 、 同 步 以 及 各 组 件 之 间 的 其 他 关系 。 存 储 管理 器 子 框架 从 基础 框架 中 继承 了 Domain 和 
MemoryObject 两 个 组 件 。 然 后 根据 控制 流 ， 在 子 框 架 中 详细 叙述 了 它们 的 行为 。Memoryobject 是 进行 了 页 封 
装 的 一 个 对 象 。 一 个 进程 对 在 它 的 地 址 空间 中 的 Domain 对 象 进行 操作 。Demain 将 访问 转换 成 Memoryobject 中 
的 访问 ， 它 又 被 传递 到 Memory Object Cache 中 。 然 后 Memory Object Cache 从 辅 存 中 拷贝 相应 的 页 到 主 存 。 高 
速 缓存 操作 控制 流 的 细节 是 使 Memory Object Cache 与 Page Frame Allocator 进行 交互 ， 调 整 分 配给 进程 的 主 存 
数目 。Memory Object Cache 指导 Disk 对 象 去 读 取 它 的 磁盘 。Disk 对 象 是 对 磁盘 硬件 的 一 个 接口 ， 其 中 封装 了 
设备 驱动 程序 和 中 断 。 当 Memory Object 已 经 被 高 速 缓 存 时 ， 框 架 中 的 Address Translation 组 件 就 调整 页 表 。 
Ail, Address Translation 组 件 是 目标 计算 机 中 存储 管理 硬件 的 一 种 抽象 包装 。 

子 框架 被 用 作 Choices 存储 管理 器 的 实际 实现 的 基础 ， 该 管理 器 在 原型 测试 床 或 者 目标 硬件 中 被 称 为 
虚拟 Choices (virtual Choices)。 虚 拟 Choices 机 制 被 用 于 开发 、 修 改 以 及 测试 仿真 环境 中 的 设计 。 图 19-5 也 
受到 了 Campbell et al. [1993] 中 一 个 类 似 图 的 启示 ， 表 现 了 Sun SparcStation 中 Choices 存储 管理 器 的 实 
现 。 在 一 般 的 子 框架 以 及 虚拟 Choices 实现 中 的 每 个 组 件 ， 都 有 一 个 继承 实现 的 组 件 。 昌 然 SparcStation 中 
的 组 件 实现 与 一 般 的 实现 有 所 不 同 ， 但 其 中 的 控制 流 将 是 相同 的 。 在 Choices 中 ， 控 制 流 图 中 的 箭头 也 可 
以 表示 层次 结构 关系 。 例 如 ， 一 般 的 图 可 以 使 用 实现 的 类 中 所 提供 的 虚拟 函数 名 来 进行 注释 。 
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图 19-4 Choices 的 存储 管理 器 子 框架 
注 : 该 图 解释 了 Choices 设计 者 使 用 框架 来 设计 操 

作 系统 的 方式 。 子 框架 描述 了 设计 组 件 间 的 关 

系 ， 针 对 任何 具体 的 实现 每 个 组 件 重新 细 化 。 


图 19-5 Choices 的 SparcStation 存储 管理 器 

注 : 该 图 是 图 19-4 所 示 的 存储 管理 器 的 子 框 架 
的 实例 。 它 实现 了 在 SparcStation 上 的 存储 
管理 器 。 
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结论 

对 Choices 所 做 的 工作 是 在 1987 年 开始 的 ， 从 那 时 起 已 经 经 历 过 了 几 个 不 同 具 体 实现 的 演化 。 由 于 
C++ 实现 的 趋势 是 增加 小 功能 ， 因 而 实现 者 们 常常 关心 面向 对 象 实现 的 性 能 。 在 1993 年 ，Choices 的 设计 
者 对 下 述 事 实 颇 有 争论 : 在 系统 调用 、 上 下 文 切 换 以 及 消息 传递 的 性 能 上 都 是 颇具 竞争 力 的 ， 但 是 还 是 不 
如 在 相同 硬件 基础 上 最 快 操作 系统 的 性 能 。 

Choices 还 是 一 个 研究 性 的 操作 系统 ， 它 没有 商业 化 的 对 应 产品 。 随 着 面向 对 象 技术 在 商业 化 方面 重 
要 性 的 增加 ，Choices 的 经 验 将 帮助 指导 使 用 该 技术 设计 操作 系统 。 为 了 对 比 ， 可 以 参见 第 21 章 中 Win- 
dows NT/2K 是 如 何 使 用 对 象 的 。 
|_| 





19.4 可 扩展 内 核 或 微 内 核 组 织 结构 


可 扩展 内 核 (extensible nucleus) 组 织 结构 是 一 个 特定 的 模块 化 组 织 结构 ， 通 过 使 用 一 个 公共 的 基本 功 
能 集合 ( 见 图 19-1c) 实现 实时 系统 、 分 时 系统 以 及 类 似 系统 。 这 种 方法 为 任何 特定 的 操作 系统 定义 了 两 
类 模块 : 特殊 策略 模块 和 策略 独立 模块 。 策 略 独立 模块 用 来 实现 可 扩展 内 核 或 微 内 核 。 它 没有 准备 提供 完 
整 的 功能 而 是 假定 用 来 创建 一 个 可 信 的 框架， 通过 该 框架 能 够 构造 特殊 策略 的 操作 系统 来 满足 某 个 应 用 领 
域 的 需要 。 框 架 是 体系 结构 中 特殊 策略 部 分 的 基础 。 

这 种 方案 的 基本 原理 是 操作 系统 可 以 分 两 部 分 来 实现 : (1) 机 制 、 硬 件 相关 的 部 分 ; (2) 策略 相关 、 
独立 于 硬件 的 部 分 。 第 一 部 分 提供 了 一 种 低级 的 虚拟 机 ， 它 使 用 某 种 形式 的 存储 器 和 进程 管理 方式 ， 通 常 
仅仅 包含 设备 管理 的 必要 部 分 。 第 二 部 分 反映 了 特定 操作 系统 的 需求 。 

这 种 体系 结构 支持 操作 系统 中 两 个 新 的 方向 。 它 允许 在 单一 的 硬件 平台 上 建立 依赖 策略 的 多 操作 系统 
版 本 ， 如 图 19-6a 中 所 示 。RC 4000 AK (参见 18.5 节 ) 是 第 一 个 使 这 种 体系 结构 在 一 个 商业 化 环境 中 运 
行 的 操作 系统 ， 随 后 便 是 BM VM 系统 的 巨大 成 功 。 这 两 种 操作 系统 都 受 支 持 多 种 操作 系统 策略 实现 的 
需求 所 驱动 ， 没 有 一 个 内 核能 实现 一 个 操作 系统 本 身 所 期 望 的 功能 。 然 而 它们 都 建立 了 一 个 用 来 实现 特殊 
策略 扩展 的 虚拟 机 接口 ， 能 补充 内 核 功 能 并 形成 了 一 个 完整 的 操作 系统 。 

微 内 核 操 作 系 统 ， 如 Mach ( 见 下 面 的 例子 ) 和 CHORUS ( 见 19.6 节 ) 逻辑 上 都 与 RC 4000 和 VM 中 
所 采用 的 可 扩展 内 核 机 制 是 等 价 的 。 然 而 这 种 方案 的 细节 和 以 前 的 操作 系统 不 同 ， 微 内 核 提供 基础 的 、 独 
立 于 策略 的 功能 ， 由 专门 的 服务 器 进行 扩展 来 实现 策略 。 例 如 ，Mach 和 CHORUS 都 有 一 个 UNIX 服务 
器 ， 它 与 微 内 核 一 起 工作 实现 UNIX 的 系统 调用 接口 。 另 外 ， 这 种 体系 结构 还 使 得 操作 系统 的 特定 策略 移 
植 性 大 大 加 强 (参见 图 19-6b)。IBM VM 系统 就 采用 了 这 种 方式 ， 人 允许 操作 系统 的 任何 版 本 可 以 用 于 一 个 
产品 系统 中 的 任意 产品 。 


| 





示例 : Mach 操作 系统 

Wit Mach 操作 系统 的 一 个 基本 动机 在 于 研究 支持 有 效 消息 传递 的 操作 系统 组 织 结构 [Accetta et al., 
1986], AA IPC 最 终 需要 使 用 某 种 形式 的 消息 ， 所 以 在 不 支持 共享 存储 器 的 硬件 环境 中 ， 强 调 消息 传递 
是 有 意义 的 。Mach 就 是 要 在 一 个 多 处 理 机 环境 中 支持 进程 间 的 通信 ， 其 中 的 通信 或 许 只 可 能 使 用 消息 来 
BEAT. Mach 的 其 他 目标 包括 : 支持 一 个 大 而 稀 芍 的 地 址 空间 的 新 型 虚拟 存储 器 的 设计 ， 以 及 比 传统 的 进 
程 更 适合 于 细 粒 度 的 共享 存储 器 多 处 理 机 的 新 的 计算 模型 实验 。 如 上 面 所 解释 的 一 样 ， 其 他 的 还 有 利用 权 
能 支持 更 为 安全 的 通信 以 及 网 络 的 透明 性 ， 开 发 扩展 内 核 的 实际 实现 系统 。 

像 加 州 Berkeley 大 学 对 UNIX 的 早期 工作 一 样 ，Mach 被 〈 美 国 国防 部 ) 高 级 研究 计划 署 (ARPA) 选 
定 为 一 个 研究 项 目 。ARPA 对 能 够 控制 多 处 理 机 的 操作 系统 的 研究 和 开发 尤其 感 兴趣 。 由 于 公共 基金 来 源 
的 原因 以 及 在 研究 机 构 中 BSD UNIX 的 广泛 接受 ，Mach 自然 地 被 设计 为 与 BSD 应 用 程序 双向 兼容 。 因 而 
Mach 的 所 有 版 本 都 支持 BSD 4.3 UNIX 的 系统 调用 接口 。Mach 成 功 的 另 一 个 因素 ， 在 于 它 被 采纳 作为 开 
放 系 统 基础 标准 操作 系统 OSF/1 的 基础 。 

Mach 的 所 有 版 本 都 致力 于 可 扩展 性 ， 意 味 着 可 以 利用 用 户 空间 的 程序 定义 操作 系统 的 某 种 特征 。 
Mach 的 3.0 版 本 和 更 新 的 版 本 中 都 明确 采用 微 内 核 设计 支持 可 扩展 的 功能 。 由 于 内 核准 备 支持 BSD 的 系 
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统 调用 接口 ， 因 而 3.0 以 前 的 版 本 在 内 核 中 使 用 了 BSD 4.3 内 核 的 一 部 分 源 代码 。 法 律 上 ， 这 种 代码 重用 
要 求 任何 请 求 Mach 源 代 码 的 人 ， 都 需要 有 从 AT&T 所 获得 的 UNIX 源 代码 证 书 ， 以 及 从 UC-Berkeley 所 
获得 的 另 一 个 证 书 。 这 就 促使 Mach 设计 小 组 重新 构造 内 核 ， 因 而 可 以 独立 于 UNIX 的 许可 证 书 来 使 用 源 
代码 。 有 趣 的 是 ，Mach 微 内 核 版 本 起 源 的 主要 原因 受 版 权 规 则 驱使 的 因素 ， 与 它 受 技术 需求 驱使 的 因素 
一 样 多 。 





可 扩展 内 核 


a) 多 策略 组 织 结构 


OS 策略 实现 


可 扩展 内 核 











b) 可 移植 0S 组 织 结构 


图 19-6 使 用 可 扩展 内 核 
注 : 可 扩展 内 核 可 用 来 支持 多 种 策略 (或 多 个 操作 系统 )， 如 a) 所 显示 的 。 它 也 支持 b) 所 示 的 可 移植 的 操作 
系统 。 


SR, Mach 微 内 核 意 指 建立 支持 不 同 操作 系统 的 标 特定 目的 服务 器 








准 功能 公共 集合 ， 各 操作 系统 有 不 同 的 策略 。 如 在 前 面 
图 中 所 解释 的 一 样 ，BSD 4.3 是 微 内 核 所 支持 的 默认 操 
作 系统 。 图 19-7 中 说 明了 微 内 核 的 其 他 扩展 ,包括 
OSF/1 操作 系统 、 其 他 的 UNIX 变种 以 及 用 于 实时 领域 Mach 微 内 核 

微 内 核 为 进程 管理 、 存 储 管理 以 及 设备 管理 提供 了 
机 制 。 一 个 操作 系统 可 通过 定义 一 个 服务 器 来 实现 , 其。 图 19-7 基于 微 内 核 的 Mach 操作 系统 
中 服务 器 使 用 微 内 核 来 实现 要 求 的 操作 系统 接口 。 可 以 Œ: Mach 微 内 核 支持 多 种 策略 (多 个 操作 系 





利用 服务 器 实现 文件 管理 器 以 及 各 种 基于 微 内 核实 现 机 统 )， 包 括 BSD UNIX, OSF/1 和 其 他 一 
制 的 策略 模块 。 本 节 的 其 余部 分 描述 了 进程 和 存储 管理 些 操作 系统 。 
器 ， 尤 其 是 IPC 机 制 。 

进程 管理 


Mach 支持 任务 和 线程 ， 通 常 的 进程 概念 相当 于 带 有 单个 线程 的 任务 。 任 务 是 带 有 自己 的 地 址 空间 、 
端口 权能 以 及 相关 线程 集合 的 一 个 执行 环境 。 它 可 以 被 认为 是 一 个 进程 的 静态 表示 ， 因 为 它 没有 表示 动态 
计算 的 成 分 。 每 个 线程 在 任务 内 执行 并 且 共 享 任务 资 源 的 一 个 指令 序列 。 一 个 线程 和 一 个 任务 结合 在 一 起 
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就 相应 于 一 个 标准 进程 的 概念 。 任 何 任务 都 可 能 支持 几 个 线程 。 如 果 任 务 是 在 一 个 多 处 理 机 环境 中 实现 
的 ， 那 么 线程 就 在 任务 内 使 用 线程 间 同 步 来 协同 对 资源 的 访问 。Mach 提供 了 一 套 专 门 的 线程 同步 机 制 来 
支持 线程 间 同 步 。 

分 布 式 计算 划分 的 粒度 部 分 取决 于 计算 的 各 个 部 分 之 间 通 信 机 制 的 速率 。 共 享 存储 器 多 处 理 机 支持 速 
率 非 常 高 的 消息 传递 ， 因 为 传输 等 于 主 存 到 主 存 的 拷贝 。 如 果 由 进程 实现 了 计算 的 各 个 部 分 ， 那 么 分 布 粒 
度 的 限制 因素 就 从 消息 传输 时 间 改 变 为 进程 的 上 下 文 切 换 时 间 了 。 线 程 提供 了 一 种 上 下 文 切换 的 轻 权 模 
型 ， 因 而 在 共享 存储 器 多 处 理 机 中 ， 基 于 线程 的 应 用 程序 可 以 充分 利用 快速 的 消息 传递 节省 时 间 。 

Mach 进程 管理 器 提供 了 两 级 原 语 ， 一 个 用 于 管理 任务 ， 而 另 一 个 用 于 管理 线程 。 任 务 级 原 语 用 于 创 
建 、 结 束 、 挂 起 以 及 重新 开始 任务 。 当 一 个 任务 被 创建 时 ， 它 可 能 或 者 不 能 继承 父 任务 的 资源 ， 这 取决 于 
在 创建 调用 时 所 使 用 的 参数 。 当 一 个 任务 是 活动 时 ， 任 务 中 的 任何 线程 都 是 可 调度 的 。 但 当 任 务 被 挂 起 
时 ， 所 有 的 线程 都 被 阻塞 。 所 以 遇 到 任务 挂 起 调用 时 ， 任 务 中 的 线程 都 不 能 运行 ， 直 到 对 每 个 挂 起 调用 有 
一 个 相应 的 重新 开始 调用 。 

Mach 线程 是 在 任务 内 可 运行 的 内 核实 体 。 线 程 管理 原 语 包括 fork ()、join ()、detach () 以 及 ex 
让 《〈)。 由 于 线程 被 定义 存在 于 一 个 任务 内 ， 它 们 共享 一 个 公共 的 地 址 空间 ， 因 而 它们 有 公共 的 全 局 变量 。 
fork 命令 模仿 了 UNIX 中 的 fork O ME, join () 命令 类 似 于 第 2 章 中 所 描述 的 join() 命令 。detach 
O 命令 用 于 在 两 个 线程 之 间 打 破 父子 关系 ， 使 得 父 线程 终止 的 同时 子 线程 可 以 继续 运行 。 

假定 任务 是 活动 的 ， 一 个 内 核 线程 也 可 以 被 挂 起 或 重新 开始 。 同 样 ， 内 核 线程 挂 起 调用 被 计数 。 遇 到 
内 核 线程 挂 起 调用 时 ， 若 任务 要 运行 ， 则 必须 至 少 获得 与 挂 起 调用 数目 一 样 多 的 重新 开始 调用 。 由 于 线程 
可 能 在 单 处 理 机 中 运行 ， 因 而 在 应 用 程序 的 显 式 命令 中 ， 有 一 个 yield () 命令 来 激活 微 内 核 线程 调度 程 
序 。 

微 内 核 调度 程序 只 管理 线程 而 不 管理 任务 。 在 基于 线程 的 计算 环境 中 ， 往 往 有 比 进程 多 得 多 的 线程 需 
要 调度 。 同 样 ， 由 于 Mach 准备 处 理 多 处 理 机 的 情况 ， 它 的 调度 程序 不 能 假定 只 有 单个 处 理 机 需要 管理 。 
每 个 处 理 机 和 每 个 线程 都 被 指派 到 一 个 处 理 机 集合 (processor set) 中 ， 处 理 机 集合 调度 程序 分 配 可 运行 的 
线程 到 处 理 机 集合 中 一 个 可 用 的 处 理 机 中 。 调 度 程序 有 一 个 带 有 优先 级 的 多 级 队列 ， 其 中 的 优先 级 是 根据 
线程 所 接收 的 服务 等 级 而 指派 的 。 如 果 线 程 当前 所 接收 的 服务 等 级 数 大 ， 那么 它 的 优先 级 就 低 。 优 先 级 用 
于 指派 线程 到 32 个 运行 队列 中 之 - -的 尾部 。 某 些 线程 必须 在 特定 的 处 理 机 上 执行 一 一 例如 ， 处 理 机 相关 
IJMO 设备 上 的 线程 。 此 类 线程 在 一 个 局 部 运行 队列 的 集合 中 被 调度 ， 而 其 他 线程 可 以 在 一 个 全 局 的 为 进程 
运行 的 队列 集合 中 被 调度 。 当 一 个 处 理 机 变 成 空闲 时 ， 它 会 在 局 部 运行 的 最 高 优先 级 的 队列 头 部 选择 一 个 
线程 并 执行 它 。 如 果 局 部 运行 队列 是 空 的 ， 调 度 程序 就 到 全 局 运行 队列 中 选择 一 个 线程 。 因 为 全 局 运行 队 
列 由 进程 集合 中 的 处 理 机 共享 ， 所 以 需要 锁 来 防止 在 一 个 时 刻 调 度 多 于 一 个 处 理 机 。 

消息 传递 

Mach 是 从 Accent 操作 系统 延续 下 来 的 ， 而 Accent 又 是 从 Rochester 智能 网 关 (RIG) 系统 延续 下 来 
的 。 每 个 系统 都 注重 有 效 的 IPC 功能 ， 以 支持 进程 间 的 相互 通信 。 

消息 RIG 比 它 的 两 个 后 续 者 较 少 考虑 进程 在 多 个 处 理 机 或 者 网 络 的 机 器 硬件 之 间 的 分 布 。 然 而 ， 从 
它 开始 就 一 直 关 注 灵 活 且 有 效 地 使 用 消息 的 IPC。RIG 使 用 消息 和 端口 的 思想 来 支持 IPC， 最 初 是 在 一 个 
多 道 程序 设计 环境 中 ， 后 来 是 在 一 个 机 器 网 络 中 。 一 个 消息 (message) 有 一 个 头 部 和 数据 部 分 ， 同 时 端口 
(port) 是 一 个 与 某 个 进程 相关 的 类 型 可 定义 的 消息 数据 结构 的 队列 。 端 口 可 以 被 认为 是 带 写 人 口 点 和 读 取 
入口 点 的 信箱 。 端 口 与 UNIX 中 半 双 工 的 、 有 类 型 通信 的 管道 具有 类 似 之 处 ， 但 不 同 之 处 在 于 它 支持 类 型 
可 定义 的 消息 而 不 是 字 节 流 。 如 果 两 个 进程 希望 交换 消息 ， 那么 必须 每 一 个 进程 都 有 一 一 个 端口 ， 因 而 可 以 
完成 双向 的 通信 。 

Accent 的 设计 者 发 现 ，RIG 的 IPC 机 制 在 几 个 方面 是 不 充分 的 。 首先 ， 端 口 的 保护 是 不 充分 的 ， 因 为 
没有 限制 进程 写 端口 。 其 次 ， 端 口 没有 足够 的 失败 通知 ， 意 味 着 一 个 端口 可 能 允许 对 失败 的 端口 连续 访 
问 。 由 于 端口 被 绑 定 到 机 器 中 以 及 进程 中 ， 因 而 难以 移动 一 个 进程 。 第 三 ， 消 息 的 尺寸 对 于 某 些 消息 传递 
应 用 来 说 太 小 了 。 

Accent 是 为 Spice 工作 站 〈 也 被 Three Rivers 计算 机 公司 作为 PERQ 进行 销售 ) 网 络 而 开发 的 ， 它 同样 
使 用 了 消息 和 端口 。 消 息 通过 连接 协议 在 网 络 上 被 可 靠 传送 。 意 识 到 RIG 的 缺陷 后 ，Accent 的 开发 者 重新 
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设计 了 端口 作为 受 保护 的 内 核对 象 ， 它 使 用 权能 来 进行 访问 ， 而 不 是 简单 地 使 用 整数 指针 。 因 此 ， 对 于 一 
个 要 发 送 消息 到 另 一 个 进程 的 端口 的 进程 来 说 ， 它 必须 拥有 完成 该 功能 的 权能 。 由 于 内 核 管理 权能 ， 因 此 
内 核 知道 哪个 进程 能 够 发 送 消息 到 某 个 特定 的 端口 。 在 特殊 情况 下 ， 如 果 一 个 发 送 进程 失败 了 ， 内 核能 够 
检查 它 的 权能 列表 来 确定 其 他 哪个 进程 依赖 于 失败 的 进程 。 因 此 内 核 知道 哪个 进程 应 该 接收 失败 的 通知 。 
RIG 通过 地 址 的 虚拟 允许 任意 发 送 进程 知道 接收 者 端口 的 位 置 。 在 Accent 中 ， 权 能 是 网 络 位 置 透明 的 ， 因 
此 防止 了 一 个 发 送 者 依赖 于 某 个 接收 者 端口 的 位 置 。 这 种 透明 性 允许 Accent 可 以 容易 地 从 一 个 机 器 中 将 进 
程 移 到 另 一 个 机 器 中 ， 同 时 不 用 担心 发 送 者 将 不 能 够 定位 处 于 过 渡 过 程 的 进程 。 

在 RIG 中 ， 消 息 大 小 的 限制 可 以 追溯 到 它 
缺乏 对 虚拟 存储 器 的 支持 ， 以 及 操作 系统 支持 
的 小 地 址 空间 。 一 个 Accent 消息 是 一 个 头 部 后 
跟 类 型 可 定义 数据 对 象 的 集合 。 消 息 的 长 度 基 
本 上 没有 限制 ， 尽 管 它 必须 要 小 于 或 等 于 232 个 
字 节 一 一 一 个 地 址 空间 的 大 小 。Accent 虚拟 存 
储 器 是 建立 在 存储 对 象 之 上 的 。 当 一 个 进程 发 
送 一 个 大 消息 到 同一 结 点 中 的 另 一 个 机 器 时 ， 
Accent 使 用 了 写 时 拷贝 (copy-on-write) 策略 : 
存储 对 象 中 的 页 就 被 写 到 接收 者 的 页 表 中 ， 因 





此 两 个 页 表 都 可 以 访问 一 个 存储 对 象 (参见 图 
19-8)。 如 果 接 收 者 对 存储 对 象 进行 写 ， 那么 在 
执行 写 操作 之 前 ， 接 收 者 所 接触 的 页 将 被 拷贝 
并 且 被 重新 映射 。 


图 19-8 在 Accent 中 传输 大 的 消息 

TE: Accent 是 最 早 在 页 式 系 统 中 使 用 写 时 拷贝 技术 的 
操作 系统 之 一 ， 消 息 被 映射 到 发 送 者 或 接收 者 的 
地 址 空间 中 ， 直 到 它们 的 任何 一 个 写 数 据 人 消息 。 





Mach 重新 使 用 了 Accent 中 对 于 消息 和 端口 所 采用 的 基本 策略 来 实现 消息 传递 。 然 而 ， 目 标 硬件 范围 
被 扩展 ， 包 括 共享 存储 器 多 处 理 机 。 这 些 多 处 理 机 提供 了 -一 种 原始 的 IPC 机 制 ， 它 比 在 Accent HEHE ATR 
准 的 本 地 存储 机 器 网 络 上 所 存在 的 机 制 支持 更 加 细 粒 度 的 计算 。 如 同 本 章 早 些 时 候 所 提 到 的 一 样 ，Mach 
通过 任务 和 线程 取代 了 Accent 中 进程 的 概念 。 

端口 ”消息 和 端口 是 从 进程 与 进程 通信 到 线程 与 线程 通信 的 扩展 。 端 口 是 与 某 个 任务 相关 联 的 ， 并 且 
被 属于 任务 的 所 有 线程 所 共享 。 例 如 ， 任 务 中 的 每 个 线程 可 以 读 取 任 务 的 端口 ， 并 且 可 以 对 任务 具有 权能 
的 某 个 端口 进行 写 人 。 一 个 线程 可 以 使 用 一 个 端口 ， 与 同一 个 任务 中 的 其 他 线程 或 者 远程 机 器 中 的 任务 的 
线程 进行 通信 。 

虽然 端口 是 内 核 数据 结构 ， 但 它们 是 通过 线程 创建 的 。 同 一 个 任务 中 的 任 一 其 他 线程 都 有 创建 者 的 权 
能 来 使 用 端口 ， 因 为 内 核 并 不 在 任务 中 的 线程 之 间 加 以 区 分 ， 而 只 是 在 任务 之 间 区 分 。 如 果 一 个 本 地 线程 
想 与 一 个 〈 在 另 一 个 任务 中 的 ) 远程 线程 通信 ， 那 么 内 核 将 在 远程 任务 中 创建 权能 ， 人 允许 它 的 线程 能 够 发 
送 消息 到 本 地 任务 的 端口 。 

通信 和 包 提 供 了 内 核 调用 来 支持 所 有 同步 或 异步 发 送 ， 以 及 阻塞 或 非 阻塞 的 receive O 操作 的 变种 。 
它 也 包括 有 结合 一 个 send () 操作 与 一 个 阻塞 receive () 来 实现 RPC 的 行为 。 

由 于 端口 支持 类 型 可 定义 的 消息 ， 并 且 任 务 可 能 有 专门 化 的 线程 执行 它们 的 代码 ， 因 而 任务 通常 有 几 
个 不 同 的 端口 。 这 意味 着 一 个 线程 可 能 不 得 不 使 用 一 个 非 阻塞 的 读 ， 来 轮 询 每 个 端口 检测 到 来 的 消息 。 
Mach 提供 了 端口 集合 (port set) 来 简化 读 操作 。 在 一 个 端口 集合 上 的 阻塞 读 ， 如 果 任 一 个 端口 包含 有 到 
来 的 消息 ， 那 么 它 将 从 端口 集合 中 的 一 个 返回 一 个 消息 。 如 果 没 有 端口 包含 有 到 来 的 消息 ， 线 程 就 被 阻塞 
在 读 操作 上 。 

网 络 消息 ”Mach 内 核 并 不 支持 消息 跨越 网 络 传输 。 它 提供 一 个 用 户 空间 的 服务 器 程序 来 处 理 与 网 络 
有 关 的 通信 。 网 络 消 息 服务 器 (network message server) 与 内 核 交 互 来 处 理 网 络 透明 性 问题 ， 包 括 定位 远 
程 任务 以 及 使 用 适当 的 网 络 协议 来 传送 和 接收 消息 。 由 于 网 络 消息 服务 器 不 是 内 核 的 一 部 分 ， 因 此 它 可 以 
按 需求 ， 通 过 向 内 核 注 册 一 个 新 服务 器 来 进行 重新 定义 。 

网 络 中 的 每 个 结 点 都 包含 有 一 个 网 络 消息 服务 器 ， 路 由 通信 数据 到 网 络 中 或 从 网 络 中 接收 数据 。 抽 象 
的 消息 网 络 是 通过 网 络 消息 服务 器 集 创 建 一 个 新 的 名 字 空间 来 实现 的 ， 该 名 字 空 间 带 有 一 个 被 线程 所 使 用 
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的 全 局 网 络 端口 。 当 一 个 主机 中 的 一 个 任务 获得 了 访问 另 一 台 机 器 中 的 一 个 端口 的 权能 时 ， 网 络 端口 就 被 
定义 ， 并 且 网 络 消息 服务 器 将 该 网 络 端口 映射 到 包含 端口 的 主机 位 置 。 现 在 ， 一 个 发 送 操作 会 在 发 送 和 接 
收 机 器 中 引起 一 系列 的 活动 ， 首 先 ， 内 核 检测 到 消息 是 到 远程 端口 的 ， 因 此 它 将 消息 转发 到 本 地 网 络 消息 
服务 器 。 本 地 网 络 消息 服务 器 使 用 网 络 端口 来 铺 定 目的 端口 的 网 络 位 置 ， 然 后 将 消息 转发 到 目的 主机 的 网 
络 消息 服务 器 中 。 远 程 网 络 消息 服务 器 将 网 络 端口 映射 到 它 自己 机 器 中 的 一 个 本 地 端口 ， 然 后 为 了 在 端口 
队列 中 放置 消息 ， 就 传递 消息 到 它 的 内 核 。 

由 于 各 种 其 他 的 任务 以 及 复杂 因素 ， 网 络 消息 服务 器 要 比 上 述 简单 情形 更 为 复杂 。 例 如 ， 由 于 网 络 消 
息 服 务 器 是 一 个 用 户 空间 任务 ， 它 必须 对 消息 流动 所 经 过 的 各 个 端口 有 一 个 适当 的 权能 集合 。 它 也 必须 代 
表 发 送 者 和 接收 者 来 管理 权能 ， 因 此 它们 不 会 受到 网 络 或 者 服务 器 的 实现 所 影响 。 除 了 这 些 Mach 专 有 的 
任务 以 外 ， 服 务 器 也 必须 完成 几 个 面向 网 络 的 任务 ， 如 支持 、 命 名 、 检 测 以 及 维护 所 有 远程 主机 的 位 置 ， 
当 需 要 时 完成 数据 类 型 的 转换 ， 以 及 完成 认证 的 请 求 等 。 

虽然 用 户 空间 服务 器 的 方法 对 于 消息 管理 来 说 已 经 证 明 是 有 价值 的 ， 但 它 的 处 理 速度 太 慢 。 效 率 损 失 
来 自 于 线程 或 任务 之 间 的 上 下 文 切 换 ， 由 于 工作 分 布 在 内 核 和 服务 器 之 间 。Mach 3.0 为 了 在 称 之 为 NOR- 
MA 的 多 处 理 机 中 使 用 “没有 远程 存储 访问 ”计算 机 的 配置 ， 提 供 了 一 种 网 络 消息 服务 器 的 内 核实 现 。 内 
核 空间 实现 的 存在 并 不 排斥 用 户 空间 网 络 消息 服务 器 的 存在 。 如 果 两 种 机 制 都 存在 ， 内 核 将 安排 在 NOR- 
MA 多 计算 机 中 的 消息 使 用 内 核 服 务 器 ， 而 所 有 其 他 的 消息 使 用 用 户 空间 服务 器 。 

存储 管理 

微 内 核 为 通过 服务 器 实现 管理 存储 对 象 的 策略 提供 了 一 种 方法 [Rashid et al.，1988]。 基 本 的 存储 管 
理 器 机 制 是 在 微 内 核 中 实现 的 ， 它 封装 存储 映射 硬件 ， 如 同 Choices 的 地 址 转换 部 件 封装 映射 硬件 (参见 
图 19-5)。 当 硬件 检测 到 一 个 缺 页 错误 时 ， 必 须 运 行 存储 管理 器 的 机 制 部 分 来 检查 访问 ， 改 变 保 护 页 映像 ， 
并 且 完 成 其 他 的 安全 管理 。 虽 然 它 是 独立 于 存储 映射 硬件 的 实现 细节 的 ， 但 这 也 必须 是 微 内 核 代码 。 存 储 
管理 器 的 另 一 部 分 实现 了 一 个 专门 的 、 硬 件 独立 的 安全 存储 管理 策略 ， 来 保存 磁盘 的 地 址 信息 、 页 的 远程 
网 络 地 址 和 标识 被 替换 的 页 面 等 。 如 图 19-9a 所 示 ，、 存 储 管理 器 的 这 一 部 分 传统 上 是 在 内 核 中 实现 的 。 然 
m, Mach 在 设计 中 允许 它 像 应 用 程序 一 样 在 用 户 空间 中 执行 (图 19-9b)。 这 要 求 存储 管理 器 的 微 内 核 部 
分 与 用 户 空间 部 分 之 间 有 一 个 良 定义 的 接口 ， 使 得 任 一 方 都 可 以 使 用 另 一 方 的 服务 。 


内 核 存储 管理 器 





a) 基于 内 核 的 存储 管理 器 b) 基于 微 内 核 的 存储 管理 器 


图 19-9 Mach 存储 管理 
注 : 图 中 的 a) 部 分 解释 了 传统 的 页 管理 器 的 行为 : 管理 器 的 所 有 部 分 在 硬件 和 核心 态 软件 下 实现 ，b) 部 分 表 
示 Mach 的 方法 ， 页 管理 器 允许 作为 用 户 空间 软件 来 执行 。 


在 Mach 中 ， 存 储 对 象 是 存储 管理 的 单元 。 存 储 对 象 可 能 是 一 个 页 、 一 组 页 、 一 个 栈 或 者 甚至 是 一 个 
文件 。 存 储 对 象 可 以 与 进程 所 使 用 的 虚拟 地 址 空间 (一 个 231 个 字 节 的 地 址 空间 ) 中 的 一 个 区 相关 联 。 如 
果 应 用 程序 有 要 求 ， 那 么 存储 对 象 会 被 加 载 到 虚拟 地 址 空间 中 的 一 个 特殊 地 址 处 ; 如 果 应 用 程序 不 关心 存 
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储 对 象 放 在 哪儿 ， 它 就 会 被 加 载 到 一 个 未 分 配 的 地 址 处 。 每 个 存储 对 象 都 有 一 个 端口 并 且 可 以 对 消息 作出 
反应 。 

每 个 任务 (包括 内 核 ) 都 有 一 个 由 内 核 管理 的 属于 自己 的 页 式 地 址 空间 ， 它 的 大 小 为 231 个 字 节 。 当 
一 个 “大 的 ”存储 对 象 从 一 个 地 方 移动 到 另 一 个 地 方 时 ， 保 存 存储 对 象 的 页 逻辑 上 通过 接收 者 的 端口 被 传 
送 到 它 的 任务 中 。 微 内 核 从 发 送 进 程 的 页 表 中 拷贝 存储 对 象 的 页 表 表 项 到 内 核 的 页 表 中 ， 同 时 消息 在 端口 
排队 。 当 目的 进程 执行 了 接收 消息 时 ， 存 储 对 象 就 被 映射 到 接收 进程 的 页 表 中 。 利 用 这 种 设计 ， 在 网 络 的 
单 结 点 内 可 以 进行 大 量 数据 的 离线 (out-of-line) 传送 。 

如 以 上 所 提 及 的 ，Mach 使 用 写 时 拷贝 (copy-on-write) 策略 使 得 两 个 页 表 可 以 访问 一 个 共同 的 消息 
体 ， 直 到 两 个 进程 中 的 一 个 或 另外 一 个 写 它 自己 的 逻辑 拷贝 。 当 一 个 存储 对 象 被 发 送 到 另 一 个 机 器 中 的 端 
口 时 ， 内 核 使 它 的 页 作为 访问 时 拷贝 (copy on-reference) 的 页 ， 意味 着 页 面 不 用 物理 地 传送 到 远程 机 器 
中 ， 直 到 机 器 被 接收 进程 访问 时 。 然 而 ， 远 程 进 程 的 页 表 要 更 新 ， 用 来 表明 存储 对 象 逻辑 上 已 经 被 传送 。 
Mach 可 以 支持 很 通用 的 策略 实现 绑 定 ， 这 是 因为 存储 对 象 在 访问 时 被 绑 定 在 一 个 物理 存储 位 置 ， 并 且 如 
果 它 们 “丢失 ”了 ,访问 可 以 通过 用 户 空间 中 的 存储 对 象 管理 器 来 重新 解决 。 

例如 ， 在 图 19-10 中 ， 发 送 者 的 操作 系统 从 训 地 址 空间 
它 的 内 核 中 拷贝 包含 消息 的 存储 对 象 到 远程 系统 
的 内 核 中 ， 因 此 它 可 以 被 映射 到 接收 者 的 地 址 空 
间 中 。 然 而 ， 远 程 机 器 中 的 Mach 会 捕获 访问 ， 
并 且 在 存储 对 象 被 访问 时 提供 发 送 进程 绑 定 信息 
到 存储 对 象 的 机 会 ， 因 而 允许 虚拟 地 址 被 绑 定 到 
任意 对 象 中 。 这 意味 着 当 它们 被 访问 时 ， 即 使 是 
被 远程 机 器 中 的 一 个 进程 所 访问 ， 发 送 进程 可 以 





we He ETC 
结论 
在 面向 网 络 的 操作 系统 中 ，Mach 操作 系统 
是 UNIX 技术 的 有 力 挑战 者 。 开 放 系统 基金 。 ppg ER ua 
OSF/1 操作 系统 就 是 基于 Mach 2 技术 。 它 也 提 S ENA MaE i A TR 
BET Mac OS X 的 基础 。 象 。 用 户 空间 存储 对 象 管 理 器 可 以 将 访问 绑 定 到 


一 个 任意 的 对 象 上 。 
在 过 去 ， 对 Mach 的 主要 批评 就 是 它 的 性 个 任意 的 对 象 


能 。Mach 的 实现 是 不 能 获得 单一 模块 UNIX 内 核 性 能 的 ， 这 是 由 于 策略 与 机 制 分 离 ， 而 允许 操作 系统 的 
各 个 部 分 在 用 户 空间 中 执行 而 引起 的 。 另 一 个 限制 因素 是 一 般 的 消息 传递 机 制 。 通 常 ， 微 内 核 的 性 能 ， 尤 
其 是 Mach 中 的 性 能 ， 是 当代 应 用 操作 系统 研究 和 开发 的 主题 。 

E 





19.5 分 层 的 组 织 结构 


FRR AR (layered kernel) 把 功能 划分 成 一 种 抽象 机 层次 结构 ， 其 中 第 i 层 的 功能 根据 第 ; -1 层 所 
提供 的 功能 来 实现 ( 见 图 19-14)。 分 层 的 体系 结构 是 一 种 把 复杂 的 软件 系统 划分 成 可 管理 部 分 的 经 典 技 
术 。 例 如 ， 分 层 体系 结构 是 定义 ISO OSI 网 络 协 议 的 手段 (参见 第 15 章 )。 在 许多 操作 系统 体系 结构 中 它 
们 是 作为 一 种 指导 性 的 原则 ， 但 主要 的 操作 系统 并 没有 采用 纯粹 的 分 层 结构 。 

层次 化 结构 所 面临 的 挑战 是 决定 各 层 的 顺序 和 内 容 。 怎 样 划 分 操作 系统 的 功能 ， 才 能 使 第 i 层 不 会 用 
到 第 i+& 层 的 功能 呢 ? 这 表明 我 们 可 能 要 把 功能 图 画 成 一 个 无 环 图 ， 同 时 在 模型 内 没有 循环 相关 。 一 -种 
纯粹 分 层 的 变种 为 了 在 内 核 中 使 用 层次 ， 其 中 有 两 类 进程 一 一 普通 进程 和 系统 任务 。 这 提供 了 用 任务 的 一 
种 形式 来 实现 普通 进程 ， 而 用 另 一 种 形式 实现 应 用 程序 的 机 会 。 虽 然 这 种 变种 往往 会 使 层次 数目 增加 ， 但 
它 通用 的 应 用 性 是 不 容 置疑 的 。 然 而 ， 当 代 操 作 系统 在 实际 上 很 少 能 够 遵循 这 -设计 。 

分 层 操作 系统 的 经 典 例子 是 Djkstra 的 THE 系统 ， 它 是 20 世纪 60 年 代 在 Technische Hogeschool Eind- 
hoven (THE) 上 开发 的 ， 因 而 有 了 一 个 不 同 寻常 的 英文 名 字 : THE (Dijkstra, 1968],, THE 的 目标 是 设计 
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并 实现 一 个 可 证 明正 确 性 的 操作 系统 (直至 

















_ 第 5 层 用户 程序 
现在 人 们 对 于 这 项 研究 是 否 能 达到 它 的 目标 第 4 尼 SAAE 
仍然 持 有 异议 )。 分 层 的 方法 提供 一 个 隔离 第 3 层 操作 员 控制 台 
操作 系统 的 各 个 层次 的 模型 ， 用 于 验证 关于 re 
系统 中 一 个 层次 的 属性 ， 实现 该 层次 ， 然后 51E CPU 调度 和 信和 号 量 
用 已 实现 的 层次 去 实现 系统 的 更 抽象 层次 。 第 0 层 ”硬件 





图 19-11 概括 了 THE 系统 的 分 层 结 构 。 第 
一 层 实 现 了 进程 、 调 度 以 及 进程 间 的 同步 机 
制 ， 这 使 得 存储 管理 系统 在 它 的 实现 中 能 够 


图 19-11 Dijkstra 的 THE 分 层 体系 结构 
TE: 分 层 结构 将 功能 组 织 得 更 结构 化 并 且 易于 管理 。 不 幸 的 


怪 基 不 同 层 次 实 立 了 一 个 ， 义 层 
使 用 进程 。 然 而 ， 它 不 允许 调度 程序 在 作出 是 ， 分 层 在 不 同 层 次 实现 中 建立 了 一 个 全 序 ， 因 此 定义 层 


决策 时 使 用 存储 管理 的 信息 。 例 如 ， 调 度 程 。 «| CARRE. 

序 因此 可 能 分 派 一 个 已 经 置换 出 内 存 的 进程 。 在 20 世纪 60 年 代 ，THE 系统 的 高 层 与 现代 的 计算 机 相 比 对 
机 器 有 更 多 的 依赖 性 。 例 如 ， 传 统 的 操作 员 控 制 台 没有 使 用 通常 的 1/O 缓冲 和 设备 驱动 程序 机 制 ， 而 是 用 
它 自 己 的 机 制 。 然 而 ， 在 THE 体系 结构 中 ，1/O 管理 和 操作 者 控制 台 可 以 使 用 虚拟 存储 器 。 

THE 是 一 个 重要 的 操作 系统 ， 因 为 它 阐明 了 怎样 构造 -个 能 证 明 其 正确 性 的 操作 系统 [Dijkstra, 
1968]。 作 为 一 个 现代 操作 系统 ， 分 层 体系 结构 有 过 度 的 局 限 性 。 它 要 求 设计 者 在 所 有 的 功能 上 建立 一 个 
顺序 ， 这 与 单一 内 核 或 微 内 核 方法 形成 鲜明 的 对 比 。 然 而 ， 分 层 是 大 多 数 操作 系统 在 一 个 抽象 层次 上 所 努 
力 要 达到 的 一 个 目标 。 


19.6 用 于 分 布 式 系统 的 操作 系统 


廉价 计算 机 网 络 的 出 现 刺激 了 操作 系统 结构 中 一 个 新 方向 的 发 展 。 分 布 式 的 硬件 引入 了 一 组 新 的 需 
求 ， 使 得 必须 使 用 一 组 新 的 模块 来 进行 操作 系统 设计 (但 仍然 用 19.2 节 中 所 描述 的 基本 软件 组 织 结构 )。 
网 络 操作 系统 由 传统 的 单机 操作 系统 进化 而 来 。 分 布 式 操作 系统 在 创建 一 个 新 抽象 环境 的 尝试 中 采取 了 一 
种 变革 性 的 策略 ， 该 环境 中 的 机 器 界限 对 程序 员 来 说 是 透明 的 。 下 面 就 概括 一 下 这 两 类 操作 系统 。 


19.6.1 网 络 操作 系统 
= 


一 般 来 说 ， 网 络 操作 系统 是 经 过 改编 以 适应 
于 网 络 环境 的 单机 操作 系统 (参见 图 19-12)。 这 





种 修改 可 以 是 适度 的 ， 如 提供 像 文 件 传输 一 样 的 
高 速 通信 功能 ， 或 如 远程 登录 一 样 的 终端 连接 。 
或 者 可 以 进行 大 的 改动 ， 如 提供 IPC、 远 程 文件 
系统 以 及 RPC 的 功能 。 很 多 大 的 更 改 可 以 认为 
是 属于 分 布 式 操作 系统 而 不 是 网 络 操作 系统 的 ， 
因为 这 种 更 改 使 得 物理 分 布 的 几 方 面 因素 对 应 用 
程序 员 来 说 是 透明 的 。 

网 络 操作 系统 的 局 限 性 通常 是 体系 结构 上 的 
局 限 性 ， 最 初 的 操作 系统 是 特别 为 单 处 理 机 环境 
所 设计 的 ， 而 现在 同时 被 用 于 管理 多 处 理 机 或 网 
络 环境 中 的 资源 。 由 于 UNIX 操作 系统 在 单个 分 
时 共享 计算 机 上 的 广泛 应 用 ， 现 在 它 已 发 展 成 为 
工作 站 上 的 操作 系统 ， 因 而 它 通 常用 作 网 络 操作 
系统 扩展 的 基础 。 











应 用 软件 







其 他 系统 软件 





分 时 操作 系统 







网 络 协议 


其 他 系统 软件 


分 时 操作 系统 





图 19-12 网络 操作 系统 环境 
注 : 网 络 操作 系统 工作 在 有 多 个 主机 的 环境 下 ， 其 中 





网 络 操作 系统 没有 必要 试图 在 操作 系统 界面 
上 使 得 文件 的 位 置 透明 化 ， 虽 然 ， 如 同 在 第 16 
章 所 讨论 的 ，remote mount 等 操作 能 够 提供 应 用 


计算 机 互 连 成 网 络 。 设 计 操 作 系统 不 需要 隐藏 网 
络 资源 的 位 置 ， 这 意味 着 应 用 软件 必须 负责 定位 
资源 。 
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“程序 员 对 网 络 中 文件 进行 透明 地 访问 。 在 过 去 的 网 络 操作 系统 中 ， 透 明 性 的 缺乏 要 求 用 户 在 访问 一 个 文件 
之 前 ， 必 须 把 它 从 远程 机 器 拷贝 到 本 地 计算 机 上 。 

执行 在 远程 位 置 的 程序 对 于 用 户 来 说 有 点 复杂 。 例 如 ， 用 户 可 能 必须 用 远程 登录 功能 创建 一 个 与 远程 
站 点 的 外 壳 程 序 (shell) 之 间 的 会 话 ， 然 后 让 外 壳 程 序 去 执行 程序 。 





示例 : BSD UNIX 

4.4 BSD (BSD UNIX 的 最 近 官 方 版 本 ) 是 网 络 操作 系统 的 一 个 典型 例子 [McKusick，et al., 1996]. 
它 是 由 纯粹 分 时 UNIX 操作 系统 演化 而 来 的 ， 被 改编 到 网 络 环境 中 并 能 够 有 效 地 工作 。BSD UNIX 意图 为 
分 时 计算 机 提供 全 面 的 操作 系统 ， 它 能 很 好 地 适用 于 使 用 TCP/IP 网 络 协议 互 连 的 工作 站 和 服务 器 。 使 
BSD UNIX 能 够 支持 网 络 计算 的 内 核 根 本 改变 是 套 接 字 接 口 ( 见 第 15 章 )。AT&T 系统 V 的 发 行 版 3， 也 
是 由 分 时 操作 系统 扩展 成 为 网 络 操 作 系 统 的 。 其 中 附加 了 I/O 流 的 概念 。 

BSD UNIX (和 和 其 他 后 来 的 开放 源 代码 版 本 ，FreeBSD 和 OpenBSD) 是 一 个 全 面 的 操作 系统 。 当 代 
Linux 系统 中 的 特征 ， 一般 在 FreeBSD 中 都 有 对 应 的 机 制 ， 反 之 亦 然 。 尽 管 它们 是 不 同 的 实现 ， 可 能 在 
FreeBSD 和 Linux 间 的 基本 区 别 是 为 操作 系统 作出 贡献 的 开发 人 员 数 目 。 

在 20 世纪 80 年 代 ，BSD UNIX 与 Sun 公司 紧密 相关 ， 主 要 是 因为 在 UC-Berkeley 的 首席 操作 系统 设 
- 计 师 (William Joy) 是 Sun 的 操作 系统 设计 师 。 最 后 ，Sun 偏离 了 BSD UNIX 的 发 展 道路 来 支持 Solaris。 然 
而 ， 商 业 上 Sun 的 经 验 对 BSD 内 核 的 发 展 影响 是 明显 的 。 

作为 一 个 网 络 操作 系统 ，BSD UNIX 是 早期 在 内 核 中 支持 TCP、UDP 和 IP 的 操作 系统 之 一 。 它 也 为 
FTP、 远 程 登 录 、 远 程 磁盘 和 文件 以 及 RPC 提供 了 内核 和 用 户 空间 ) 支持 。 当 设计 者 面 对 着 网 络 应 用 的 
快速 扩展 时 ， 他 们 意识 到 可 以 过 滤 出 传输 层 所 需 的 基本 东西 ， 并 在 内 核 中 实现 它 ， 以 支持 大 部 分 的 传输 层 
协议 。 这 就 有 必要 提供 一 种 手段 ， 使 得 用 户 空间 程序 可 以 使 用 这 种 内 核 功能 。 这 是 设计 BSD 套 接 字 的 动 
机 。BSD 的 设计 者 意识 到 了 所 有 的 传输 层 协议 可 以 作为 套 接 字 机 制 上 的 用 户 空 间 代 码 来 实现 ， 这 是 一 种 优 
秀 的 工程 学 思想 。 当 代 操 作 系统 的 设计 (包括 Windows 操作 系统 ) 使 用 了 BSD 套 接 字 作 为 系统 调用 接口 。 

套 接 字 编 程 在 实验 15.1 中 进行 了 详细 的 描述 。 我 们 再 复习 一 下 ， 下 面 是 套 接 字 的 基本 特征 : 

m 任何 应 用 程序 可 以 用 socket () 系统 调用 创建 一 个 套 接 字 ， 来 将 一 个 网 络 端 点 引入 到 它 的 地 址 空间 

中 。 , 

m 任何 (或 至 少 很 多 ) 的 传输 层 协议 可 以 使 用 套 接 字 来 实现 。 套 接 字 并 没有 任何 首选 的 传输 层 协 议 ， 
它 被 设计 成 可 与 任何 传输 层 协议 协同 工作 。 

n 一 旦 套 接 字 在 进程 地 址 空间 中 被 创建 ， 可 以 使 用 bind () 系统 调用 来 将 它 导出 到 一 个 全 局 名 字 空 间 
中 。 这 可 以 通过 定义 不 同 的 套 接 字 地 址 数据 结构 ( 称 为 sockaddr) 来 完成 ， 在 地 址 被 导出 时 ， 套 接 
字 地 址 数据 结构 被 传递 到 bind ()。 早 期 的 实现 支持 对 应 于 UNIX 文件 系统 地 址 空间 的 地 址 空间 ， 
以 及 每 个 地 址 为 (net#, host#, port#) 的 IP 扩展 地 址 空间 。DNS 被 增加 到 这 些 设施 中 使 得 软件 
可 以 将 远程 套 接 字 作为 符号 域名 来 访问 。 这 个 独创 的 发 明 是 允许 计算 机 上 的 进程 内 线程 可 以 与 不 同 
计算 机 上 的 进程 内 线程 通信 的 一 个 基本 要 素 。 它 也 足以 用 于 实现 大 量 的 远程 服务 ， 包 括 FTP、 远 程 
登录 、 远 程 磁盘 /文件 和 RPC. | | 

BS 还 有 更 多 ;BSD UNIX 内 核 提供 了 listen () 和 accept O 系统 调用 来 实现 多 线程 服务 和 TCP 风格 

的 虚拟 电路 。 尽 管 不 用 这 些 调用 也 可 以 实现 虚拟 电路 ， 它 们 是 提供 了 有 效 内 核 连接 实现 的 系统 调用 
接口 的 适当 补充 。 

通过 定义 套 接 字 设 施 ， 分 时 UNIX 系统 得 到 了 扩展 ， 用 户 空 间 程序 员 可 以 实现 复杂 的 分 布 式 程序 设计 
运行 时 系统 和 分 布 式 应 用 程序 。 不 仅仅 BSD UNIX 证 实 了 这 种 方法 的 可 行 性 ， 大 多 数 的 当代 分 布 式 软件 的 
基础 元 素 也 构建 在 套 接 字 网 络 设施 上 。 

E 





19.6.2 分 布 式 操作 系统 
操作 系统 研究 的 艺术 效果 在 分 布 式 操作 系统 (distributed operating system) 的 设计 和 发 展 中 得 到 了 体 
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现 。 大 多 数 操作 系统 的 研究 论文 都 集中 在 分 布 式 操作 系统 的 某 个 方面 上 。 虽 然 几 个 有 意义 的 系统 已 经 被 建 
立 起 来 了 ,但 没有 一 个 获得 商业 上 的 成 功 。Tanenbaum 和 van Renesse [1985] 列举 了 5 个 用 于 区 别 分 布 式 
操作 系统 和 网 络 操作 系统 的 论点 : 
m 通信 原 语 (communication primitives) ， 需 要 寻找 一 种 可 替代 共享 存储 器 同步 原 语 (例如 信号 量 和 管 
程 ) 的 方法 。 
m 命名 和 保护 (naming and protection ): 这 是 有 关 标 识 一 个 机 器 中 的 进程 以 及 它 与 远程 机 器 上 的 进程 
进行 通信 的 问题 。 | 
© 网 络 资源 管理 (network-wide resource management ); 这 是 与 调度 、 负 和 载 均衡 以 及 分 布 式 死 锁 检测 等 
有 关 的 问题 。 
m 248 (fault tolerance): 在 出 现 单个 的 组 件 失败 的 情况 下 ， 这 与 整个 系统 的 健壮 性 有 关 。 
m 提供 服务 (service to provide): 这 与 文件 服务 器 、 打 印 服 务 器 、 远 程 执行 机 制 以 及 其 他 机 制 的 设计 和 


使 用 是 相关 的 。 





单一 的 、 透 明 的 系统 ， 而 不 是 使 用 网 络 连接 的 各 个 计 
算 机 的 集合 ( 见 图 19-13)。 有 时 网 络 操作 系统 和 分 布 
式 操 作 系 统 的 区 别 是 明显 的 ， 网 络 操 作 系 统 允 许 硬 件 
环境 的 某 些 要 素 是 位 置 透明 的 ， 同 时 另外 一 些 是 可 见 
的 。 例 如 ， 在 4.3 BSD UNIX 中 ,文件 服务 可 能 是 位 





分 布 式 操作 系统 被 抽象 为 :在 一 个 不 同 计算 机 系 
其 他 系统 软件 其 他 系统 软件 


统 集合 的 网 络 中 ， 应 用 程序 进程 能 把 计算 机 环境 作为 


、 , , 图 19-13 分 布 式 操作 系统 
Bane. m teiner, ftp, rlogin, rsh, finger 等 命 。 注 ， 分布 式 操作 系统 〈 与 网 络 操作 系统 相 比 ) 
令 的 机 器 界限 又 是 明确 的 。 的 主要 目标 是 自动 地 定位 和 管理 网 络 资源 

Mach (J 19.4 4%) 通常 被 看 作 一 个 分 布 式 操作 的 位 置 。 编 写 应 用 程序 时 无 需 知道 它们 使 
系统 ， 虽 然 有 时 它 也 被 描述 为 一 个 微 内 核 操 作 系 统 。 用 的 网 络 资源 的 位 置 。 


CHORUS 是 另外 一 个 基于 微 内 核 的 操作 系统 ， 在 一 些 方面 和 Mach 相似 ， 通 常 也 被 看 作 一 个 分 布 式 操作 系 
统 。 





示例 : CHORUS 操作 系统 

在 20 世纪 80 FREH, CHORUS 开始 是 在 法 国 国家 计算 机 科学 研究 所 (INRIA) 作为 一 个 分 布 式 系 
统 中 的 研究 项 目 ， 到 了 80 年 代 后 期 ， 它 已 经 发 展 成 为 一 个 被 Chorus 系统 所 支持 的 商业 化 操作 系统 了 。Sun 
公司 最 终 获 得 Chorus 并 将 其 作为 它 的 操作 系统 产品 的 一 部 分 。 下 面 的 描述 就 基于 Chorus 系统 描述 [Rozier 
.et al., 1988]. 

在 CHORUS-V3 中 ， 其 微 内 核 的 目标 是 在 一 . 特殊 目的 服务 器 
个 开放 的 分 布 式 硬 件 环境 下 为 使 用 System V 接 
口 的 操作 系统 、 实 时 操作 系统 、 一 个 面向 对 象 的 
操作 系统 (COOL) 提供 有 效 的 支持 。 像 Mach 
一 样 ，CHORUS 的 发 展 来 自 于 微 内 核 体系 结构 
的 早期 工作 。 版 本 3 的 微 内 核 称 之 为 核心 程序 CHORUS 微 内 核 
计算 单元 ， 轻 权 的 单元 称 之 为 线程 ，IPC 则 是 基 a 
于 消息 和 端口 。 微 内 核 支持 子 系统 提供 系统 服务 。  cHonesRM UAE RA BIH, 





来 实现 特殊 的 操作 系统 策略 ( 见 图 19-14). l 微 内 核 创建 了 如 角色 、 线 程 和 消息 之 类 的 抽象 。 
操作 系统 是 作为 建立 在 微 内 核 之 上 的 子 系统 特定 目的 的 服务 器 (如 System V UNIX) 使 用 微 
内 的 一 组 系统 服务 器 来 实现 的 。 微 内 核 本 身 被 模 ”内 核 抽象 来 实现 分 布 式 功能 。 


块 化 成 依赖 于 机 器 的 监控 程序 和 独立 于 机 器 的 进程 管理 器 、 存 储 管理 器 及 IPC 管理 器 。 进 程 和 存储 管理 是 
本 地 任务 ， 而 IPC 管理 器 用 于 实现 全 局 的 服务 。 微 内 核 的 这 些 部 分 实现 了 6 种 基本 的 抽象 : 
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图 角色 (actor): 一 种 类 似 于 Mach 中 的 任务 的 计算 单元 。 它 有 资源 、 端 口 以 及 被 划分 成 区 的 页 式 地 址 
空间 ， 但 它 相 对 于 计算 而 言 是 一 个 被 动 的 实体 。 

@ 线程 (thread): 串 行 计 算 的 活动 单元 。 一 个 线程 在 一 个 角色 中 执行 ， 并 使 用 角色 的 资源 和 地 址 空 
间 。 同 一 个 角色 中 的 线程 共享 角色 的 资源 。 线 程 的 状态 通过 程序 计数 器 、 寄 存 器 以 及 栈 来 表示 。 

B 48 (message): 用 于 在 地 址 空间 之 间 交 换 信 息 的 字 节 流 。 消 息 是 线程 跨越 机 器 边界 进行 通信 的 显 
式 方 法 。 

图 端口 〈port) :一 个 保存 有 发 送 给 某 个 角色 的 消息 的 信箱 。 端 口 可 以 被 作为 一 种 服务 的 一 个 地 址 。 为 
了 能 够 使 用 端口 组 来 组 播 消息 到 几 个 端口 中 ， 端 口 可 以 属于 某 个 端口 组 (port group). 

m 唯一 标识 号 (unique identifier, UI): 一 个 64 位 的 全 局 名 ， 在 整个 操作 系统 的 生命 期 间 是 唯一 的 ， 
包括 跨越 重启 系统 操作 。 

B 区 (region): 由 存储 管理 器 所 管理 的 一 个 有 连续 地 址 的 块 。 角 色 的 地 址 空间 是 很 大 的 ， 例 如 有 2” 
个 地 址 。 通 过 分 页 来 实现 区 。 

子 系统 中 的 角色 和 微 内 核 联 合 在 一 起 管理 其 他 3 种 抽象 

MX (segment): 通过 应 用 程序 所 定义 并 且 通 过 某 种 权能 所 访问 的 一 种 数据 封装 单元 。 

m 权能 (capability): 分 布 式 系统 中 一 个 128 位 的 可 用 于 唯一 访问 资源 的 键 。 权 能 的 一 半 是 由 微 内 核 所 
管理 的 唯一 标识 导 ， 另 一 半 是 由 子 系统 所 定义 的 。 

加 保护 标识 号 《protection identifier): 一 个 被 微 内 核 追 加 到 所 有 消息 中 的 标识 号 ， 并 且 被 子 系统 用 于 
认证 消息 。 

机 器 配置 可 以 包括 一 组 通过 一 个 网 络 所 连接 的 站 点 (sites)。 一 个 站 点 可 能 是 一 个 工作 站 或 者 多 处 理 机 





中 的 一 个 CPU 板 ， 一 个 网 络 可 能 是 一 个 分 组 网 络 或 者 一 条 内 部 总 线 。 每 个 站 点 有 它 的 物理 资源 并 且 通 过 
一 个 微 内 核 进 行 管 理 。 一 个 角色 的 地 址 空间 被 划分 成 用 户 部 分 和 系统 部 分 ， 同 时 ， 同 一 个 站 点 中 的 所 有 和 角 


色 都 共享 地 址 空间 中 的 系统 部 分 。 

图 19-15 中 概括 了 微 内 核 的 体系 结构 。 监 控 
程序 为 中 断 和 自 陷 这 类 事件 实现 了 低层 的 处 理 
程序 ， 因 此 它 是 依赖 于 机 器 的 模块 。 实 时 执行 
体 实 现 了 线程 的 复 用 以 及 同步 ， 虽 然 它 是 独立 
于 机 器 的 ， 但 它 在 几 种 不 同 的 服务 中 使 用 了 监 
控 程 序 ， 包 括 用 于 优先 级 调度 的 中 断 。VM 管理 
器 实现 了 一 个 页 式 虚拟 存储 器 ， 包 括 页 帧 分 配 
和 虚拟 地 址 管理 。 它 在 很 大 程度 上 是 独立 于 机 
器 的 ， 除 了 与 存储 映射 单元 硬件 的 交互 。VM 管 
理 器 在 微 内 核 接口 是 可 见 的 ， 人 允许 用 户 空间 的 
系统 服务 器 参与 到 存储 管理 中 。 监 控 程 序 、 实 
时 执行 体 以 及 VM 管理 器 提供 了 本 地 服务 ， 全 
局 服务 是 IPC 管理 器 通过 它 的 消息 机 制 来 支持 
的 。IPC 管理 器 实现 了 机 器 地 址 空间 以 及 位 置 的 
透明 性 ， 并 且 也 为 RPC 和 组 播 提供 了 高 层 机 
制 。 

进程 管理 


微 内 核 接 口 









E 19-15 CHORUS 微 内 核 体系 结构 

注 : 如 该 图 所 显示 的 ， 微 内 核 本 身 也 是 一 个 模块 ， 包 
含 了 监控 程序 、 实 时 执行 体 、VM 管理 器 和 IPC 
管理 器 。 


进程 管理 主要 处 理 角色 与 线程 。 一 个 角色 非常 类 似 于 Mach 的 任务 ， 线 程 也 类 似 于 Mach 的 线程 。 线 
程 使 用 角色 的 端口 来 接收 来 自 其 他 角色 的 消息 。 端 口 通 过 一 个 权能 标识 ， 一 个 角色 有 一 个 被 其 他 线程 用 于 


访问 它 的 默认 端口 。 


实时 执行 体 通过 使 用 可 剥夺 的 优先 权 调度 方式 来 调度 线程 。 微 内 核 根 据 公平 和 及 时 响应 的 原则 对 每 个 
线程 的 优先 权 进 行 调整 。 线 程 同步 是 使 用 一 个 角色 中 对 所 有 线程 都 可 用 的 公共 主 存 来 实现 的 。 


进程 间 通 信 


通信 机 制 依 赖 于 UI 来 实现 端口 的 位 置 透明 性 。 每 个 端口 使 用 一 种 权能 来 访问 ， 并 且 每 个 权能 包含 有 
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一 个 UI。 因 此 ， 当 一 个 任务 使 用 一 种 权能 来 发 送 一 个 消息 到 端口 时 ， 它 不 需要 关心 拥有 端口 的 角色 的 位 
置 ， 而 是 由 IPC 管理 器 负责 把 Ul 转换 到 一 个 网 络 地 址 ， 该 地 址 在 支持 的 网 络 中 使 用 命名 机 制 管 理 。 为 了 
避免 在 微 内 核 中 对 任何 此 类 机 制 编 解码 ， 如 互联 网 地 址 ，IPC 管理 器 与 一 个 子 系统 组 件 交互 ， 子 系统 组 件 
能 够 将 UI 转换 成 互联 网 地 址 。 
在 CHORUS 中 ， 消 息 是 简单 的 字 节 流 而 不 是 结构 化 的 消息 。IPC 管理 器 从 发 送 者 的 地 址 空间 中 将 字 
节 流 拷贝 到 接收 者 地 址 空间 的 端口 中 。 大 的 消息 使 用 Accent 中 所 采用 的 写 时 拷贝 方法 。 
一 个 端口 组 是 由 一 组 被 指派 了 另 一 个 UI 的 一 组 端口 UI 组 成 的 。 端 口 组 UI 类 似 于 以 太 网 中 的 组 播 地 
址 。 当 一 个 消息 被 发 送 到 端口 组 时 ，IPC 管理 器 就 将 消息 的 拷贝 传送 到 端口 组 中 的 每 个 端口 中 。 很 多 不 同 
的 子 系统 在 一 个 网 络 中 使 用 组 播 来 实现 可 靠 的 算法 。 在 设计 一 个 客户 “广播 ”一 个 请 求 到 一 组 服务 器 ， 而 
无 需 确切 知道 是 哪 一 个 服务 器 应 该 响应 的 情形 中 ， 组 播 也 是 有 用 的 。 正 确 的 服务 器 响应 组 播 消息 ， 同 时 所 
有 其 他 的 服务 器 都 忽略 该 消息 。CHORUS 的 设计 者 指出 这 如 同 动态 绑 定 到 一 个 服务 一 样 ， 客 户 不 需要 与 
任何 特定 的 服务 器 相关 联 ， 直 到 它 需 要 的 时 候 才 进行 关联 。 
存储 管理 
段 是 一 个 逻辑 的 信息 块 ， 如 一 个 文件 或 交换 区 。 通 过 在 子 系统 中 执行 一 个 称 之 为 段 服务 器 或 者 映射 器 
(mapper) 的 系统 角色 ， 可 将 段 映 射 到 一 个 角色 的 地 址 空间 中 的 某 个 区 域 。 因 此 段 有 一 个 U1， 相 应 的 区 域 
有 一 个 虚拟 地 址 和 保护 信息 。 每 个 区 通过 微 内 核 的 VM 管理 器 ， 使 用 请 调 方式 映射 到 页 帧 中 。 因 此 ， 对 一 
个 段 的 访问 被 一 个 用 户 空间 中 的 映射 器 映射 到 一 个 区 中 ， 该 区 又 通过 内 核 被 映射 到 一 个 页 帧 ， 然 后 就 可 被 
正在 运行 的 线程 访问 了 。 一 个 缺 页 错误 首先 由 监控 程序 来 处 理 ， 然 后 传递 到 VM 管理 器 ，VM 管理 器 再 通 
知 有 关 的 映射 器 它 需 要 一 个 页 ， 上 映射 器 根据 它 的 设计 原理 从 一 个 任意 的 位 置 来 获得 目标 页 。 如 同 在 Mach 
中 一 样 ，CHORUS 在 微 内 核 中 实现 了 低级 页 面 调度 机 制 ， 并 且 允 许 在 用 户 空间 中 实现 页 替换 策略 。 
结论 
本 示例 中 的 讨论 提供 了 CHORUS MNARA RIRIA SI. Rozier et al. [1998] 中 提供 了 对 CHORUS 
的 组 织 结构 、 性 能 以 及 设计 根据 的 详尽 讨论 。 像 Mach —, CHORUS 为 网 络 和 多 处 理 机 环境 提供 了 一 
UNIX 的 商业 化 可 选 方案 。 如 同 Mach 已 经 在 美国 获得 了 有 限 的 商业 成 功 一 样 ，CHORUS 在 欧 共 体 中 也 已 
经 获得 了 有 限 的 商业 成 功 。 
E 





19.7 小 结 


操作 系统 具有 各 种 功能 ， 包 括 进程 管理 和 资源 管理 、 存 储 管理 、 文 件 管理 和 设备 管理 等 。 如 图 19-3 
所 示 ， 各 种 功能 之 间 的 交互 逻辑 上 是 复杂 的 ， 因 此 难以 对 功能 模块 化 来 最 小 化 它们 之 间 的 通信 量 。 过 去 40 
多 年 来 ， 设 计 者 一 直 在 软件 体系 结构 方面 进行 实验 ， 力 图 以 一 种 有 效 、 灵 活 且 可 维护 的 方式 来 实现 所 有 的 
功能 。 在 20 世纪 60 年 代 后 期 以 及 70 年 代 中 ， 研 究 者 曾 以 层次 体系 结构 和 可 扩展 内 核 的 方法 进行 实验 。 
Dijkstra 的 THE 和 Brinch Hansen 的 RC 4000 内 核 都 是 实现 这 些 技术 的 重要 操作 系统 。 在 20 世纪 70 年 代 ， 
IBM 推广 了 采用 它 的 VM 内 核 的 可 扩展 内 核 机 器 。 商 业 化 因素 驱使 IBM 采用 VM 方法 ， 因 为 顾客 对 公司 
在 市 场 上 的 很 多 不 同 计算 机 要 求 有 单一 的 操作 系统 界面 。 反 过 来 ， 一 些 安装 需求 要 求 不 同 的 操作 系统 都 可 
以 在 单一 的 IBM 机 器 中 使 用 。 在 IBM 的 操作 系统 策略 中 ，VM 已 被 证 明 是 有 价值 潜力 的 。 从 1975 年 到 
1990 年 ， 单 一 内 核 体系 结构 是 操作 系统 的 主流 形式 ， 包 括 经 典 的 UNIX 实现 。 
l Choices 是 一 个 基于 模块 化 内 核 方 法 的 研究 型 操作 系统 。 它 在 操作 系统 实验 中 证 明了 重用 的 价值 ， 并 
且 在 操作 系统 和 软件 工程 研究 中 继续 发 挥 着 作用 。 相 对 于 完全 的 面向 对 象 的 技术 ， 对 象 在 很 多 操作 系统 中 
被 使 用 (包括 Windows NT/2000/XP)。 它 们 允许 系统 被 设计 成 使 用 权能 去 访问 在 系统 的 分 布 部 分 中 的 功 
能 ， 如 同 在 Mach、CHORUS 以 及 其 他 的 系统 中 所 做 的 一 样 。 

今天 ， 基于 微 内 核 的 操作 系统 采用 了 新 兴 的 体系 结构 。 本 章 描述 了 Mach # CHORUS 是 如 何 使 用 该 技 
术 来 实现 UNIX 服务 器 和 实时 操作 系统 的 。 它 们 都 是 分 布 式 消息 传递 的 操作 系统 ， 只 有 操作 系统 的 关键 部 
分 是 在 微 内 核 中 实现 。 在 这 种 操作 系统 中 ， 文 件 系统 和 进程 管理 器 的 一 部 分 、 资 源 管理 器 以 及 存储 管理 器 
都 是 在 用 户 空间 中 实现 的 。 
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1. 


19.8 习题 


Mach, CHORUS 以 及 其 他 的 操作 系统 广泛 地 使 用 了 权能 。 解 释 一 下 权能 如 何 使 这 些 系统 能 够 在 一 
个 分 布 式 系统 中 实现 实体 的 位 置 透明 性 。 在 CHORUS 中 ， 权 能 的 使 用 与 第 14 章 所 讨论 的 权能 有 什 
么 不 同 ? 


. 一 个 Mach 线程 能 够 读 取 由 它 写 到 一 个 任务 端口 的 消息 蚂 ?为 什么 能 或 者 为 什么 不 能 ? 
. 考虑 关于 计算 的 可 调度 单元 : 


a. Mach 中 的 一 个 任务 与 一 个 线程 有 什么 区 别 ? 
b. CHORUS 中 的 一 个 角色 与 一 个 线程 有 什么 区 别 ? 
c. 一 个 带 有 两 个 线程 的 进程 与 两 个 分 别 有 一 个 线程 的 进程 有 什么 区 别 ? 


. Mach 中 的 一 个 端口 集合 与 CHORUS 中 的 一 个 端口 组 有 什么 区 别 ? 
. Mach 和 Chorus 都 是 作为 一 组 线程 在 微 内 核 中 实现 的 ， 它 们 都 实现 了 一 个 UNIX 系统 调用 接口 。 推 


测 一 下 如 何在 UNIX 服务 器 中 实现 一 个 过 程 调用 接口 ， 仍 然 使 用 线程 来 实现 。 


. 是 什么 因素 使 得 不 能 在 Mach 和 CHORUS 的 用 户 空间 中 实现 整个 页 面 替换 算法 ? 
. 选择 一 个 没有 在 本 章 讨论 过 的 当代 操作 系统 ， 并 且 用 一 页 纸 来 概括 一 下 该 系统 是 如 何 处 理 设备 管 


理 、 文 件 管理 、 进 程 管理 以 及 存储 管理 的 。 你 不 需要 提供 对 描述 操作 系统 的 论文 或 者 操作 系统 本 
身 代 码 的 关键 分 析 。 本 练习 的 部 分 目的 是 让 你 阅读 技术 性 文献 ， 不 要 使 用 另外 的 教科 书 作 为 信息 


参考 。 
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在 这 本 书 中 ， 你 已 经 看 到 了 Linux 的 许多 例子 。 在 本 章 中 ， 你 会 对 所 有 这 些 在 Linux 内 核 中 实现 的 组 
件 有 一 个 更 全 面 的 了 解 。 因 为 Linux 内 核 在 因特网 上 公开 可 用 ， 任 何 想 要 阅读 源 代码 的 人 无 须 许可 证 就 可 
以 获得 它 。 大 约 在 10 年 前 ，Linux 开始 成 为 研究 生 的 项 目 。 它 很 快 地 为 操作 系统 开发 人 员 所 接受 ， 在 它 开 
始 的 5 年 内 ， 变 成 了 一 个 可 运行 的 商业 操作 系统 。 今 天 ，Linux 已 经 是 主要 的 商业 操作 系统 中 的 一 员 。 


20.1 Linux 内 核 


第 3 章 给 出 了 UNIX 操作 系统 系列 的 一 般 讨 论 ， 本 章 更 详细 地 介绍 Linux 如 何 实现 UNIX (POSIX.1) 
系统 调用 接口 。 一 般 来 说 ， 内 核 负 责 抽 象 和 管理 机 器 的 硬件 资源 ， 并 且 管 理 在 执行 中 的 程序 间 的 资源 共 
享 。 因为 Linux 实现 了 POSIX.1 接口 ， 资 源 抽象 和 共享 模型 的 一 般 定义 已 经 确定 了 。 操 作 系统 必须 支持 进 
程 、 文 件 和 其 他 的 资源 ， 使 得 它们 可 用 传统 的 POSIX.1 系统 调用 来 管理 。 像 POSIX.1 的 许多 实现 一 样 ， 
大 部 分 的 功能 实现 在 可 信 内 核 代 码 中 ， 尽 管 有 些 是 实现 在 用 户 空间 库 中 。 


20.2 ”内核 组 织 结构 


Linux 内 核 采用 了 与 以 前 大 多 数 的 UNIX 内 核 一 样 的 软件 结构 :作为 一 体 化 内 核 进 行 设计 和 实现 。 在 
传统 的 UNIX 内 核 中 ， 进 程 和 资源 管理 、 存 储 管理 以 及 文件 管理 都 是 在 单一 可 执行 软件 模块 中 实现 的 ， 内 
核 每 个 方面 的 数据 结构 对 于 内 核 中 所 有 其 他 方面 程序 通常 都 是 可 访问 的 。 然 而 ， 设 备 管理 是 作为 一 个 设备 
驱动 和 中 断 处 理 程序 的 独立 部 分 来 实现 的 〈 也 在 核心 态 中 执行 )。 这 种 设计 背后 的 原理 就 是 内 核 的 主要 部 
分 从 来 不 应 该 发 生 改变 ， 增 加 到 系统 的 新 的 内 核 空 间 软 件 只 能 是 设备 管理 相关 模块 。 设 备 驱动 程序 更 容易 
编写 并 加 入 到 内 核 中 〈 相 对 于 加 入 进程 管理 的 某 些 特征 来 说 )。 

随 着 技术 的 发 展 ， 这 种 设计 前 提 对 于 扩展 内 核 来 处 理 像 网 卡 和 位 映射 显示 等 新 设备 来 说 ， 已 经 成 为 一 
个 严重 的 障碍 。 内 核 和 设备 驱动 程序 之 间 的 接口 ， 通 常 是 设计 为 支持 硬盘 、 键 盘 以 及 字符 显示 等 。 随 着 硬 
件 发 展 到 包含 这 些 更 新 的 设备 时 ， 在 设备 驱动 程序 中 提供 适当 的 内 核 支持 就 变 得 越 来 越 困 难 了 。 

Linux 通过 提供 一 个 新 的 “容器 ”来 解决 这 个 问题 ， 该 容器 一 模块 可 实现 对 内 核 主要 部 分 的 扩展 
CRE 20-1)。 模 块 是 一 个 独立 的 软件 单元 ， 它 能 够 在 操作 系统 编译 和 安装 后 进行 设计 和 实现 ， 并 可 以 在 系 
统 运行 时 动态 安装 。 模 块 与 内 核 之 间 的 接口 比 设备 驱动 程序 更 为 普遍 ， 相 对 于 驱动 程序 来 说 ， 它 提供 给 程 
序 员 一 个 更 为 灵活 的 可 扩充 内 核 功能 的 工具 。 有 趣 的 是 ， 模 块 被 证 实 是 如 此 灵活 ， 因 此 它们 常用 于 实现 设 
备 驱动 程序 。 模 块 在 20.3 节 进 行 描述 。 

设备 
驱动 程序 


设备 驱 
动 接口 


Linux 内 核 


模块 接口 


BG 
¥ 


图 20-1 内核、 设备 驱动 程序 和 模块 
注 : 经 典 的 UNIX 内 核 仅 能 通过 增加 设备 驱动 程序 来 扩展 。Linux 提供 了 模块 这 种 补充 机 制 来 将 新 的 代码 加 入 到 
内 核 中 。 
20.2.1 使 用 内 核 服 务 


如 图 20-2 所 示 ， 从 用 户 程序 的 观点 来 看 ， 内 核 是 一 种 大 的 抽象 数据 类 型 (ADT)， 它 用 来 维护 状态 ， 
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并 在 它 的 公共 接口 一 一 内 核 系 统 调用 接口 上 提供 了 函数 。 只 要 执行 程序 的 进程 调用 公共 接口 上 的 功能 时 ， 
ADT 就 给 用 户 程序 提供 操作 系统 服务 。 服 务 的 准确 特征 依赖 于 被 调用 的 特定 函数 、 它 的 参数 ， 以 及 当 函 
数 被 调用 时 操作 系统 的 状态 。 因 此 ， 内 核 的 公共 接口 规范 就 是 操作 系统 功能 接口 的 主要 描述 。 
继续 来 分 析 ADT， 系 统 调用 接口 的 用 户 空间 程序 调用 系统 

实现 是 私有 的 ， 因 此 这 种 实现 在 不 同系 
统 间 是 不 同 的 ， 甚 至 在 Linux 不 同 版 本 
间 的 实现 也 可 能 不 同 。 理 论 上 或 实践 当 
中 ， 在 设备 驱动 程序 或 模块 与 内 核 之 间 
的 界线 对 于 用 户 程序 来 说 是 无 法 分 辩 的 。 
这 些 是 内 部 设计 而 不 是 公共 接口 的 特征 。 
因此 ，POSIX.1 系统 调用 接口 定义 的 功 
能 ， 通常 是 由 内 核 、 设 备 驱动 程序 或 者 
模块 来 实现 。 如 果 函 数 是 在 设备 驱动 程 


公共 POSIX.1 系 统 调 用 接口 





序 或 模块 中 实现 的 ， 那 么 当 用 户 程序 激 l 图 20-2 作为 一 个 ADT 的 内 核 

活 这 个 函数 时 ， 内 核定 位 该 调用 , 然后 。 注 : 内 核 有 ADT 的 一 些 特点 ; 它 提 供 了 大 量 函 数 的 公共 接口 ， 
通过 一 个 内 部 接口 把 参数 传递 到 相应 的 可 调用 这 些 公共 接口 来 操纵 ADT. ADT 函数 的 实现 是 私 
设备 驱动 程序 或 模块 当中 。 在 系统 调用 有 的 。 


接口 的 Linux 实现 中 ,一 些 功能 甚至 是 作为 用 户 空 间 程 序 来 实现 的 一 一 如 Linux 的 过 去 版 本 中 依靠 库 代码 
来 实现 线程 包 [Beck et al., 1998]. 

假设 内 核 ADT 实际 上 作为 一 个 C++. 对 和 象 来 实现 ， 那 么 它 将 是 一 个 被 动 的 对 象 。 即 内 核 软件 没有 任何 
内 部 可 执行 的 线程 或 进程 一 一 它 仅仅 是 一 个 维护 状态 的 功能 和 数据 结构 的 集合 体 。 任 何 使 用 内 核 服务 的 进 
程 一 一 该 进程 是 一 个 活动 的 实体 ， 都 是 (J 逻辑 上 ) 通过 在 系统 调用 接口 上 进行 过 程 调用 来 做 出 内 核 请 求 
的 。 即 当 在 内 核 外 执行 的 进程 进行 系统 调用 时 ， 它 开始 执行 内 核 代码 ， 这 与 执行 用 户 代码 的 进程 可 能 从 一 
个 明确 的 内 核 进 程 中 获得 服务 的 思想 形成 对 比 。 在 Linux 中 ， 当 进行 系统 调用 时 ， 执 行 用 户 程 序 的 进程 也 
执行 内 核 程序 。 
那么 在 概念 上 ， 只 要 执行 应 用 程序 的 进程 从 操作 系统 中 要 求 服务 时 ， 它 简单 地 通过 POSIX.1 系统 调 
用 接口 来 调用 合适 的 操作 系统 功能 就 可 以 了 。 在 调用 之 前 ， 进 程 在 执行 应 用 程序 ， 在 调用 之 后 (但 在 返回 
之 前 )， 进 程 在 执行 内 核 软件 。 然 而 ， 内 核 是 通过 运行 在 管理 模式 的 CPU 来 执行 ， 而 应 用 程序 是 在 用 户 模 
式 中 执行 的 。 
结合 有 模式 位 的 CPU 也 通常 结合 有 一 条 硬件 自 陷 指 令 。 一 条 自 陷 指 令 会 引发 CPU 分 支 转移 到 一 个 预 
先 指定 的 地 址 ， 并 且 把 CPU 切换 到 核心 态 。 当 然 ， 每 种 机 器 中 自 陷 指 令 的 实现 细节 对 于 那 种 机 器 来 说 是 
独特 的 。 自 陷 指 令 并 不 是 特权 指令 ， 因 此 任何 程序 都 可 以 执行 自 陷 指 令 。 然 而 ， 分 支 指令 的 目标 被 设置 成 
一 组 在 管理 空间 中 的 地 址 ， 该 组 地 址 被 设 定 指向 内 核 代 码 。 

Linux 是 一 个 多 道 程序 设计 的 内 核 。 然 而 ， 内 核 功能 通常 是 如 同 在 临界 区 中 一 样 被 执行 的 。 即 一 旦 一 
个 进程 调用 了 系统 函数 ， 在 将 CPU 分 配 到 一 个 不 同 的 进程 之 前 ， 该 函数 会 正常 地 运行 结束 并 返回 。 然 而 ， 
中 断 会 挂 起 一 个 系统 调用 的 执行 ， 因 此 中 断 可 以 被 及 时 服务 。 这 称 之 为 单线 程 内核 (single-thread kernel), 
因为 (如 果 忽 略 中 断 服务 例 程 ) 一 个 时 刻 仅 有 一 个 可 执行 线程 允许 在 内 核 中 执行 。 一 个 执行 的 线程 开始 一 
个 内 核 函 数 调用 后 不 能 被 调度 程序 所 中 断 ， 让 另外 的 进程 运行 ( 它 可 能 又 进行 内 核 调用 )。 这 种 策略 至 少 
有 两 个 重要 的 含义 : 

E 内 核 函数 可 以 更 新 各 种 各 样 的 内 核 数 据 结构 ， 而 无 需 考虑 其 他 进程 会 中 断 它 的 执行 ， 并 且 可 以 改变 
同一 个 数据 结构 的 相关 部 分 。 进 程 之 间 的 竞争 情形 不 会 发 生 。( 然 而， 进程 和 中 断 执行 之 间 的 竞争 
可 能 发 生 。) 

里 如 果 编 写 一 个 新 的 内 核 函 数 ， 必 须 记 住 不 能 编写 这 样 的 代码 ， 即 阻塞 等 待 一 个 消息 或 者 只 能 通过 其 
他 进程 释放 资源 ， 这 可 能 在 内 核 之 中 造成 死 锁 。 

当前 的 Linux 内 核 版 本 支持 对 称 多 处 理 机 (SMP)。 在 SMP 支持 被 加 和 内核 之 前 (2.2 版 之 前 )， 任 何 

在 系统 调用 执行 和 中 断 之 间 的 潜在 竞争 都 是 通过 屏 藏 中 断 来 处 理 的 。 内 核 的 SMP 版 本 烛 出 了 一 组 精心 设 
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计 的 内 核 锁 ， 因 为 内 核 的 每 份 拷贝 (在 每 个 SMP E) 都 在 一 个 不 同 的 内 核 线程 上 执行 。 


20.2.2 守护 进程 


在 单线 程 内 核 中 ， 由 正常 的 进程 执行 内 核 代 码 。 即 没有 特殊 的 “内 核 进程 ”来 执行 内 核 代 码 。 虽 然 这 
是 准确 的 ， 但 当 Linux 启动 时 ， 仍 然 启动 了 几 个 对 用 户 透 明 的 称 作 守护 进程 (daemon) 的 进程 ， 并 且 它 们 
为 确保 操作 系统 的 正确 运行 而 存在 。 例 如 ， 如 果 机 器 正在 连接 网 络 ， 那 么 必须 有 一 个 响应 到 来 的 网 络 报 文 
的 进程 ; 还 有 一 个 守护 进程 在 记录 系统 信息 和 错误 的 日 志 等 。 这 些 运 行 在 Linux 中 的 特殊 守护 进程 ， 可 根 
据 系 统管 理 员 设 置 机 器 的 方式 而 变化 。 按 照 惯例 ， 守 护 进 程 执 行 以 字符 “d” 结 尾 的 程序 。 例 如 ， 网 络 守 
护 进 程 通常 称 为 inetd， 系 统 记录 日 志 的 守护 进程 通常 称 为 syslogd 等 。 你 可 以 在 shell 中 键入 ps aux | 
more， 查 看 一 下 哪些 守护 进程 在 Linux 中 运行 。ps 命令 报告 进程 状态 ，aux 参数 表明 你 要 求 所 有 进程 (a 
参数 ) 的 用 户 格式 (u 参 数 ) 报告 ,其 中 包括 那些 没有 控制 终端 (x 参数 ) 的 进程 。 当 你 浏览 列表 时 ， 可 
以 寻找 以 字符 d 结尾 的 和 tty 域 为 ? (没有 控制 终端 ) 的 进程 。 通 常情 况 下 ， 你 可 以 看 到 syslogd, klogd, 
crond 以 及 lpd 在 系统 中 运行 。 你 可 以 通过 查阅 手册 来 了 解 这 些 守护 进程 运行 的 程序 在 做 些 什么 〈 例 如 使 
用 man syslogd 来 查阅 syslogd 的 手册 页 ) 。 


20.2.3 启动 内 核 


当 机 器 被 加 电 时 ， 硬 件 就 开始 了 取 指 令 - 执行 循环 ， 从 而 引发 控制 单元 重复 地 取 指 令 并 解码 指令 ， 并 
且 由 逻辑 运算 单元 执行 它们 。 硬 件 进 程 ( 见 6.2 节 ) 并 不 是 一 个 Linux 进程 。 因 为 硬件 进程 是 在 硬件 启动 
时 开始 的 ， 且 远 在 内 核 加 载 之 前 就 开始 执行 了 。 在 诊断 程序 完成 之 后 ， 就 读 取 启动 记录 ， 然 后 加 载 程序 把 
操作 系统 放置 到 主 存 中 ， 从 而 启动 过 程 开始 运行 内 核 代码 来 初始 化 计算 机 硬件 。 计 算 机 首先 通过 把 CPU 
设置 为 管理 模式 ， 并 分 支 转移 到 内 核 中 的 主 入 口 点 来 准备 启动 内 核 。 该 主 入 口 点 不 是 一 个 带 有 传统 的 main 
头 文件 行 的 普通 C 程序 ， 因 为 它 是 在 启动 序列 中 被 启动 的 而 不 是 作为 一 个 传统 的 主 程序 被 启动 的 )。 

一 旦 进入 主 入 口 点 ， 内 核 就 初始 化 系统 调用 表 、 中 上 断 处 理 程序 、 调 度 程序 、 时 钟 、 模 块 等 。 在 该 序列 
的 结束 处 ， 它 初始 化 了 进程 管理 器 ， 意 味 着 它 准 备 支持 正常 的 进程 抽象 。 妈 辑 上 ， 硬件 进程 就 创建 初始 进 
程 (initial process)。 初 始 进 程 被 放置 在 内 核 进程 控制 块 的 第 一 个 条 目 中 ， 因 此 它 在 内 部 也 被 作为 0 进程 、 
task [0] 或 者 INIT_ TASK。 然 后 初始 进程 创建 第 一 个 很 有 用 的 Linux 进程 来 运行 init 程序 ， 并 开始 执行 
一 个 空 循环 。 即 在 内 核 初始 化 后 ， 初 始 进程 的 唯一 职责 是 利用 空闲 的 CPU 时 间 一 一 当 没 有 其 他 进程 使 用 
CPU 时 它 就 使 用 CPU (也 可 称 作为 空闲 进程 (idle process) )。 

第 一 个 真正 的 进程 继续 初始 化 系统 ， 但 现在 它 使 用 比 对 硬件 进程 来 说 更 高 层 的 抽象 。 它 启动 各 种 守护 
进程 以 及 文件 管理 器 ,创建 系统 控制 台 ， 从 /etc、/bin 或 者 /sbin 中 (或 者 同时 从 其 中 ) 来 运行 其 他 的 
init 程序 ， 并 且 在 必要 的 时 候 运 行 /etcyrc。 

启动 内 核 是 一 个 复杂 的 过 程 ， 所 以 很 可 能 出 错 。 当 默认 的 启动 算法 失败 时 ， 可 以 在 过 程 中 检查 有 不 同 
可 选 方法 的 地 方 。 到 内 核 初 始 化 完成 时 ， 初 始 进程 将 被 激活 并 且 几 个 守护 进程 已 经 启动 。 在 [Beck, et 
al., 1998] 的 第 3 章 中 ， 有 涉及 启动 内 核 步骤 的 详细 讨论 。 


20.2.4 机 器 中 的 控制 流 


计算 机 的 行为 由 硬件 进程 的 活动 来 控制 一 一 记 住 仅 有 一 个 硬件 进程 。 它 将 一 直 执 行 硬件 取 指令 - 执行 
循环 ， 直 到 计算 机 被 终止 。 尽 管内 核 可 能 从 一 个 程序 (一 个 中 断 服务 例 程 、 系 统 调用 或 一 个 用 户 程序 ) 切 
换 到 其 他 程序 ,但 硬件 进程 在 一 个 低 于 内 核 的 抽象 层 运行 。 因 此 硬件 进程 没有 软件 进程 的 概念 、ISR 或 者 
其 他 的 内 核 抽 象 概念 ， 它 仅仅 是 读 取 并 且 执行 指令 。 从 计算 机 行为 的 这 种 低层 观点 来 说 ， 即 使 中 断 发 生 也 
仅仅 是 一 种 分 支 指令 而 已 。 


20.3 模块 和 设备 管理 


Linux 模块 是 一 组 函数 和 数据 类 型 ， 它 可 以 作为 一 组 独立 的 程序 来 编译 (用 合适 的 标志 来 指示 它 是 内 
核 代 码 ) 。 当 模块 安装 时 ， 它 被 链接 到 内 核 中 。Linux 内 核 可 以 在 启动 时 进行 模块 安装 一 - 称 为 静态 加 载 ， 
或 当 内 核 运行 时 动态 加 载 。 当 然 ， 在 动态 模块 被 安装 之 前 如 果 调用 了 模块 的 函数 ， 则 这 个 调用 会 失败 。 但 


t 








502 #20 F 





是 如 果 模 块 被 安装 了 ， 内 核 会 知道 这 个 调用 ， 然 后 将 调用 参数 传递 给 模块 中 的 相应 函数 。 
在 正常 的 内 核 初始 化 期 间 ，Linux 系统 通常 会 加 载 几 个 模块 。 要 想 知 道 你 的 Linux 机 器 上 运行 了 哪些 
模块 ， 一 种 简单 的 方法 是 阅读 文件 /proc/nodules， 其 中 列 出 了 每 个 活动 (静态 的 或 动态 的 ) 的 模块 。 
EUR UNIX 系统 有 一 个 传统 的 静态 机 制 ， 用 来 在 配置 内 核 时 定义 和 增加 设备 驱动 程序 ， 但 是 一 般 用 模 
块 来 实现 设备 驱动 程序 。 这 样 做 的 结果 就 是 模块 AP] 一 般 要 符合 设备 驱动 程序 的 API。 即 使 这 样 ， 模 块 仍 
可 以 用 来 实现 你 想 要 的 任何 函数 。 


20.3.1 模块 组 织 


在 一 个 模块 被 安装 后 ， 它 会 在 核心 态 下 执行 ， 与 内 核 有 相同 的 地 址 空间 ， 这 意味 着 模块 可 以 读 写 内 核 
数据 结构 。 因 为 Linux 是 作为 单一 内 核 来 实现 的 ， 一 个 文件 中 实现 的 函数 需要 访问 另 一 个 文件 中 定义 的 数 
据 ， 这 是 很 普通 的 问题 。 在 传统 的 程序 中 ， 这 个 问题 可 以 使 用 外 部 〈 全 局 ) 变量 来 处 理 ， 当 构建 程序 可 执 
行 对 象 文件 时 ， 链 接 编 辑 器 会 处 理 这 些 外 部 符号 。 

因为 模块 独立 于 内 核 进行 编译 和 链接 ， 它 们 不 能 通过 依赖 静态 链接 的 变量 名 来 访问 内 核 数据 结构 。 相 
反 ，Linux 内 核 采 用 了 一 种 机 制 ， 通 过 这 种 机 制 ， 实 现 数据 结构 的 文件 可 以 导出 数据 结构 的 符号 名 使 得 它 
可 以 在 运行 时 使 用 。 调 试 器 就 是 依赖 于 这 种 运行 时 变量 绑 定 机 制 ， 使 得 用 户 可 使 用 符号 名 来 访问 数据 结 
构 ， 所 以 并 不 是 仅 为 了 支持 模块 而 实现 这 种 机 制 。 当 编译 源 文件 时 ， 如 果 调 试 器 将 被 使 用 ， 则 有 必要 指示 
编译 器 导出 符号 ， 这 和 内 核 是 相同 的 情况 。 当 内 核 被 构建 时 ， 内 核 公共 (kernel public) 符号 使 用 文件 的 头 
文件 说 明 被 导出 。 

模块 是 作为 动态 抽象 数据 类 型 来 对 待 的 ， 它 有 一 个 可 被 静态 内 核 解释 的 接口 。 这 个 最 小 化 的 模块 接口 
必须 包含 内 核 安装 和 移 除 模块 需 调用 的 两 个 函数 ，init _ module () 和 cleanup _ module ()。 因 为 一 个 模 
块 可 以 实现 相对 复杂 的 功能 ，Linux 包含 了 为 模块 定义 新 的 API 的 机 制 一 一 不 仅仅 是 init _ module () 和 
cleanup_ module (), 

例如 ， 假 定 模块 被 设计 来 允许 应 用 程序 增加 一 个 内 部 模块 值 ， 设 计 者 必须 提供 一 个 名 为 increment () 
的 函数 来 实现 增值 。 因 为 模块 实现 者 可 以 为 模块 API 定义 任何 新 的 函数 ， 需 要 一 些 方式 来 通知 操作 系统 出 
现 了 这 些 新 的 函数 。 然 后 ， 当 应 用 程序 想 要 调用 内 核 的 功能 时 ， 它 会 发 出 一 个 系统 调用 。 内 核 然后 将 调用 
转发 给 模块 中 的 特定 函数 。 当 模块 被 安装 到 内 核 中 时 ， 增 加 到 模块 中 的 每 个 新 函数 必须 注册 到 内 核 。 如 果 - 
模块 是 静态 加 载 的 ， 当 内 核 启 动 时 ， 所 有 的 函数 就 注册 了 。 如 果 模 块 是 动态 加 载 的 ， 在 模块 安装 时 ， 这 些 
函数 必须 动态 地 注册 到 内 核 中 。 当 然 ， 如 果 模 块 被 动态 地 移 除 ， 它 的 函数 必须 要 注销 ， 当 模块 不 再 加 载 
时 ,模块 函 数 不 会 被 调用 。 注 册 通 常 是 在 init module () 中 完成 的 ， 注 销 是 在 cleanup _module () 中 完 
成 的 。 


20.3.2 模块 的 安装 和 移 除 


如 前 所 述 ， 倘 若 编写 的 内 核 代 码 可 被 另 一 模块 访问 ， 这 样 模块 就 可 以 访问 内 核 变量 。 同 样 地 ， 模 块 可 
以 导出 它 自 己 的 符号 使 得 其 他 的 模块 可 以 使 用 它们 。 当 你 使 用 insmod 程序 安装 -一 个 模块 时 ， 第 -一 步 是 增 
加 新 的 模块 到 内 核 地 址 空间 中 (通过 名 为 create _module () 的 内 核 函数 )。 下 一 步 ， 模 块 中 的 外 部 符号 
引用 可 被 另 一 个 内 核 函数 (名 为 get _ kernel _syms ()) 来 处 理 ， 这 个 函数 会 搜索 导出 的 内 核 符 号 ， 以 及 
已 经 被 加 载 的 其 他 模块 列表 。 这 意味 着 如 果 一 个 模块 引用 符号 是 在 其 他 模块 中 定义 的 ， 那 么 定义 符号 的 模 
块 必须 在 被 访问 之 前 加 载 。 在 模块 被 增加 到 内 核 地 址 空间 后 ， 并 且 外 部 符号 被 处 理 后 ，create _module () 
为 模块 分 配 存储 空间 。 

现在 模块 可 以 通过 init module () 系统 调用 来 加 载 ， 这 时 ， 这 个 模块 中 定义 的 符号 可 被 导出 ， 并 供 
后 来 加 载 的 其 他 模块 使 用 。 最 后 ，insmod () 为 最 新 加 载 的 模块 调用 init module O MA. 

当 模 块 被 移 除 时 ，cleanup _ module () 函数 会 被 调用 ， 模 块 使 用 的 空间 可 被 释放 ， 并 且 虚 拟 地 址 可 解 
除 映射 。 注 意 到 如 果 一 个 模块 被 安装 了 ， 但 后 来 又 安装 了 另外 的 模块 ， 而 新 的 模块 又 使 用 了 第 一 个 模块 中 
的 符号 ， 如 果 这 时 将 第 一 个 模块 移 除 会 使 第 二 个 模块 出 现 错误 。 因 为 第 二 个 模块 使 用 第 一 个 模块 中 声明 的 
变量 ， 只 要 第 二 个 模块 仍然 访问 这 些 变量 ， 第 一 个 模块 就 不 能 被 移 除 。 
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20.4 进程 和 资源 管理 


进程 管理 器 负责 创建 程序 员 使 用 的 进程 抽象 ， 并 提供 设施 使 得 进程 可 以 创建 、 结 束 、 同 步 、 保 护 其 他 
的 进程 。 同 样 地 ， 资 源 管理 包括 创建 合适 的 抽象 来 表示 进程 可 以 请 求 的 实体 (如 果 资 源 不 可 用 ， 就 阻塞 它 
的 执行 )。 除 了 抽象 ， 资 源 管理 器 必须 提供 进程 可 以 请 求 、 获 取 和 释放 资源 的 接口 。 

为 了 深刻 理解 进程 管理 器 的 任务 ， 在 各 种 抽象 的 层次 上 概括 程序 的 执行 是 很 有 用 的 〈 见 图 20-3): 


应 用 


计时 器 ， 内 核 数 
进程 管理 
ES [e] 


图 20-3 ”进程 抽象 
TE: Linux (POSIX.1) 进程 抽象 和 第 2 章 中 描述 的 几乎 是 一 样 的 。 进 程 管理 器 使 用 计时 器 、 中 断 、 保 护 机 制 等 ， 
为 每 个 进程 导出 一 个 地 址 空间 和 虚拟 CPU。 这 些 抽 象 最 终 在 主 存 和 物理 CPU 上 执行 。 


量 硬件 层次 ”硬件 简单 地 从 由 程序 计数 器 所 指向 的 存储 位 置 取 指 令 并 执行 它 ， 然 后 取 下 一 条 指令 ， 再 
执行 ， 依 此 类 推 。 硬 件 对 程序 不 加 区 分 一 一 它们 都 仅仅 是 主 存 中 的 指令 序列 。 所 以 只 有 执行 存储 指 
令 的 硬件 进程 的 概念 ， 而 没有 如 同 Linux 进程 一 样 更 加 抽象 的 概念 。 

加 进程 管理 器 层次 ”进程 管理 器 创建 了 一 个 理想 化 虚拟 机 的 集合 体 ， 其 中 每 一 个 虚拟 机 在 用 户 态 运行 
时 ， 都 具有 主机 CPU 的 特征 。 进 程 管理 器 通过 计时 器 、 中 断 、 各 种 保护 机 制 、 进 程 间 通 信 (IPC) 
和 同步 机 制 、 调 度 以 及 各 种 数据 结构 的 集合 ， 来 使 用 硬件 层次 创建 一 个 Linux 进程 。 应 用 程序 和 进 
程 管理 器 相互 作用 〈 用 系统 调用 接口 ) 来 创建 虚拟 机 的 实例 (用 fork ())， 加 载 特殊 的 程序 (用 
exec ()) 到 地 址 空间 ， 同 步 父 、 子 虚拟 机 (用 wait O) 等 。 

里 应 用 程序 层次 ”传统 的 Linu 进程 和 POSIX 线程 被 用 于 应 用 程序 层次 中 。 进 程 地 址 空间 是 它 的 虚拟 机 

的 存储 器 〈 包 括 正文 、 栈 和 数据 段 )， 虚 拟 CPU 指令 通过 系统 调用 接口 功能 扩充 用 户 模式 的 硬件 指 
令 ， 虚拟 资源 (包括 设备 ) 通过 系统 调用 接口 进行 操纵 。 

进程 管理 器 操纵 硬件 进程 和 物理 资源 来 实现 一 组 虚拟 机 ， 必 须 在 单个 的 物理 机 器 之 上 能 够 支持 多 虚拟 
机 的 执行 。(Linux 支持 多 处 理 机 ， 但 本 节 中 我 们 仅仅 考虑 单 CPU 上 的 实现 。) 它 必须 也 提供 保护 和 同步 功 
能 来 允许 共享 的 正确 性 。 , 

在 版 本 2.2 之 前 的 内 核 代码 中 ， 任 务 和 进程 这 两 个 术语 是 交替 使 用 的 〈 在 版 本 2.2 和 2.2 之 后 的 版 本 
中 ,任务 指 的 是 一 个 经 典 进程 或 是 一 个 内 核 线程 )。 本 节 中 ,我 们 在 执行 发 生 在 核心 态 时 使 用 任务 这 个 术 
语 ， 而 执行 发 生 在 用 户 态 时 用 进程 表示 。 当 创建 一 个 进程 时 ， 通 常会 在 一 个 新 的 地 址 空间 (一 个 随 着 进程 
执行 而 能 读 、 写 的 虚拟 地 址 集合 ) 中 创建 它 。 从 内 核 的 观点 来 看 ， 这 意味 着 当 硬 件 进程 代表 进程 ; 执行 
时 ， 它 仅 能 在 可 寻 址 的 机 器 部 件 中 读 、 写 相应 于 进程 i 的 地 址 空间 中 的 虚拟 地 址 。 
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20.4.1 运行 进程 管理 器 


进程 调度 的 内 核 部 分 〈 如 同 内 核 中 的 其 他 部 分 一 样 ) 仅 当 进程 开始 在 管理 模式 执行 后 才 被 执行 一 一 要 
么 是 因为 系统 调用 ， 要 么 是 由 于 中 断 〈 见 图 20-4)。 


任务 正在 运行 









IRQ 自 陷 





快速 中 断 





如 果 需 要 调 中 断后 半 部 分 处 理 执行 系统 函数 


从 系统 调用 返回 









任务 继续 运行 


图 20-4 内核 中 的 任务 控制 流 部 分 
注 : 该 图 显示 了 Linux 内 核 代 码 不 同 块 间 的 关系 。 当 一 个 任务 在 运行 时 ， 一 个 中 断 请 求 ORQ) 会 使 得 处 理 机 开 
始 执 行 中 断 服务 例 程 (ISR)， 要 人 么 作为 快速 中 断 来 完成 ， 要 么 作为 慢 速 中 断 来 完成 。 自 陷 会 引发 一 个 系统 调 
用 ， 系 统 调用 之 后 可 能 会 调度 新 的 任务 来 运行 。 


E 系统 调用 ”假设 一 个 进程 正在 执行 用 户 模式 软件 并 且 进 行 了 系统 调用 ， 那 么 进程 会 自 陷 到 内 核 代码 
中 目标 函数 的 入口 点 处 。 该 功能 函数 由 内 核 任务 来 执行 。 当 功能 函数 完成 工作 时 返回 到 内 核 ， 然 后 
能 够 在 ret _ from_ sys _ call 代码 (内 核 中 的 一 个 汇编 语言 代码 块 ) 中 完成 一 组 标准 的 工作 。 该 代 
码 块 分 派 任何 积累 的 系统 工作 ， 如 处 理 信和 号、 完成 某 种 形式 的 待 处 理 中 断 进程 〈 称 为 “执行 待 处 理 
中 断 处 理 程序 的 后 半 部 分 ") ， 或 者 调度 其 他 任务 。 系 统 调用 结束 时 ， 调 用 进程 处 于 TASK _ RUNNING 
状态 (就 绪 状 态 ， 即 当 CPU 可 用 时 就 使 用 CPU)， 或 者 调用 进程 就 处 于 TASK _ INTERRUPTIBLE 或 者 
TASK _ UNINTERRUPTIBLE 状态 。 如 果 任务 被 阻塞 (或 者 已 经 用 完 它 的 所 有 时 间 片 ) ， 就 调用 调度 程序 
分 派 一 个 新 的 任务 。 

m PH (IRQ) ” 当 一 个 IRQ 发 生 时 ， 当 前 运行 的 进程 就 会 完成 它 正 在 执行 的 指令 ， 然 后 任务 就 开始 
执行 相应 IRQ 的 ISR (中 断 服务 例 程 )。Linux 中 会 区 分 快速 和 慢 速 响应 的 中 断 。 快 速 中 断 (fast in- 
terupt) 是 一 个 非常 短 的 时 间 内 完成 的 中 断 ， 因 而 在 它 执行 的 同时 要 屏 项 其 他 的 中 断 ， 该 中 断 被 处 
理 完 后 青 打开 中 断 ， 然 后 继续 用 户 进程 。 慢 速 中 断 (slow interrupt) 会 涉及 更 多 的 工作 : 在 中 断 被 
屏蔽 后 ， 任 务 执行 ISR。 该 ISR 可 以 有 一 个 后 半 部 分 ,在 中 断 处 理 结束 之 前 需要 完成 ， 但 它 并 不 需 
要 在 ISR 中 实现 。 在 后 半 部 分 被 处 理 时 (参见 系统 调用 描述 中 ret _ from_ sys _ call 的 处 理 过程 )， 
待 处理 的 后 半 部 分 工作 在 内 核 队列 中 会 被 调度 。 慢 速 中 断 可 以 被 中 断 打 断 ， 因 而 ， 后 半 部 分 工作 的 
队列 可 以 在 艇 套 中 断 发 生 时 建立 。 如 果 在 后 半 部 分 运行 之 前 ， 同 一 个 ISR 被 激活 了 两 次 或 多 次 ， 那 
么 尽管 ISR 被 执行 了 多 次 ， 但 相应 的 后 半 部 分 只 运行 一 次 。 当 慢 速 中 断 结束 ISR 时 ， 它 会 执行 ret 
_from_sys_ call 代码 块 。 


20.4.2 创建 一 个 新 任务 


当 父 进程 调用 fork O 系统 调用 时 ， 就 可 以 创建 一 个 新 的 任务 或 进程 (在 更 新 的 版 本 中 还 可 以 使 用 
clone () 系统 调用 )。 当 内 核 创建 了 一 个 新 的 任务 时 ， 它 必须 分 配 一 个 进程 描述 表 (process descriptor) 的 
新 实例 ， 它 是 一 个 管理 新 任务 的 全 部 信息 的 数据 结构 。 在 Linux 内 核 中 ， 进 程 描述 表 是 struct task _ 
struct 数据 结构 的 一 个 实例 ( 见 6.4 节 )。 进 程 表 (process table) 包含 了 所 有 任务 /进程 的 描述 表 。 如 以 前 
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所 描述 的 ， 空 闲 任 务 占 有 列表 或 表 中 的 第 一 个 条 目的 位 置 。 

每 个 进程 描述 表 都 可 能 被 链接 到 一 个 或 多 个 列表 中 〈 除 进程 表 外 的 列表 )， 这 取决 于 进程 的 当前 状态 。 
例如 ， 如 果 进 程 处 于 TASK_RUNNING 状态 ， 那 么 它 在 一 个 由 静态 内 核 变量 ( 称 为 current) 所 指向 的 列表 
中 ， 该 列表 指明 哪 一 个 进程 是 就 绪 状 态 。 如 果 一 个 进程 被 阻塞 等 待 一 个 IMO 操作 的 结束 ， 那 么 它 就 出 现在 
等 待 来 自 设备 中 断 的 进程 列表 中 。 

fork () 系统 调用 通过 执行 下 列 步 又 来 创建 一 个 新 的 进程 : 

B 分 配 一 个 struct task_ struct 的 新 实例 ， 并 且 把 它 链接 到 task 列表 中 。 

图 为 任务 创建 一 个 新 的 内 核 空间 栈 供 任务 在 内 核 中 执行 时 用 。 

. E 拷贝 父 任务 描述 表 中 的 每 个 域 到 子 任务 描述 表 中 。 

m 针对 子 进程 修改 子 进程 描述 表 中 域 的 值 。 i 

m 保存 新 的 进程 标识 号 (PID). 

8 创建 该 任务 的 父 进程 和 兄弟 进程 之 间 的 链接 。 

E 初始 化 特定 进程 的 计时 器 (如 创建 时 间 、 当 前 时 间 片 所 剩余 的 时 间 等 )。 

E 拷贝 其 他 在 父 进程 描述 表 中 被 引用 的 数据 结构 ， 并 且 应 该 为 子 进 程 复制 它们 。 

E 为 在 父 进 程 中 所 打开 的 每 个 文件 创建 相应 的 文件 表 和 文件 描述 表 。 

E 为 子 任务 创建 一 个 新 的 用 户 数据 段 ， 然 后 拷贝 父 进程 的 数据 段 到 这 个 新 的 段 中 (这 应 该 非常 花费 时 

间 ， 因 为 数据 段 可 以 包含 大 量 的 信息 )。 

加 拷贝 有 关 信 号 以 及 信号 处 理 程序 的 信息 。 

m 拷贝 虚拟 存储 器 表格 。 

图 改变 子 进程 的 状态 到 TASK _ RUNNING 并 且 从 系统 调用 返回 。 

当然 ，execve () 系统 调用 也 将 极 大 地 影响 到 进程 描述 表 的 内 容 ， 因 为 它 引起 进程 加 载 并 且 执 行 一 个 
不 同 的 程序 ， 该 程序 不 同 于 在 它 调用 execve () 时 所 正在 执行 的 程序 。 简 要 地 说 ，execve () 代码 引起 内 
核 在 文件 系统 中 找 一 个 新 的 可 执行 文件 ， 检 查 它 的 访问 许可 ， 随 着 需要 而 调整 主 存 的 需求 ， 然 后 为 随后 的 
执行 而 加 载 该 程序 。 这 将 要 求 更 新 进程 描述 表 中 存储 访问 的 有 关内 容 。 

Linux 内 核 中 也 包括 一 个 名 为 clone () 的 系统 调用 ， 它 用 于 支持 2.2 版 本 以 及 更 高 版 本 中 的 线程 。 
clone () 和 fork () 调用 都 激活 名 为 do _ fork () 的 内 部 内 核 函 数 ， 因 而 它们 的 行为 几乎 是 相同 的 。 区 
别 就 在 于 父 、 子 进程 数据 段 的 处 理 上 : fork () 拷贝 父 进程 的 数据 段 ， 而 clone O 在 父 、 子 进程 之 间 共 
享 该 数据 段 〈 以 及 父 进程 地 址 空间 中 其 余 的 大 多 数 空间 )。 


20.4.3 IPC 和 同步 


在 Linux 中 有 两 种 不 同 的 同步 机 制 一 一 一 种 用 于 协调 并 发 的 内 核 线 程 ， 另 一 种 为 用 户 进 程 提供 同步 机 
制 。 单 处 理 机 内 核 总 是 通过 系统 调用 接口 或 者 中 断 所 激活 ， 作 为 单个 任务 来 执行 。 内 核 活动 从 来 不 会 被 系 
统 调用 所 打 断 ， 因 为 在 任 一 个 中 断 被 处 理 时 或 者 正在 进行 一 个 系统 调用 处 理 时 ， 没 有 用 户 进 程 可 以 发 出 系 
统 调用 。 因 而 内 核 内 的 同步 ， 主 要 是 保证 当前 内 核 代 码 处 于 临界 区 的 同时 不 会 发 生 中 断 。 这 可 以 通过 在 临 
界 区 的 开始 处 屏 项 中 断 来 满足 (使 用 cli O 一 一 清 中 断 内 核 函数 ) ， 然 后 当 临 界 区 结束 时 再 打开 中 断 (使 
用 sti O 设置 中 断 函 数 )。SMP 的 内 核 版 本 引 人 了 一 个 补充 的 内 核 锁 机 制 。 
外 部 的 同步 机 制 是 基于 事件 模型 。 内 核实 现 了 一 种 称 之 为 wait _ queue 的 抽象 数据 类 型 来 管理 事件 ， 
每 个 事件 有 一 个 相应 的 wait _ queue。 使 用 内 核 函 数 add_wait_ queue ()， 可 以 将 一 个 任务 增加 到 指定 的 
wait _ queue 中 。 相 应 地 ， 内 核 函 数 remove wait _queve () 从 指定 的 wait _ queue 中 移 走 单个 任务 。 这 种 
抽象 的 数据 类 型 是 实现 同步 的 系统 调用 基础 ， 如 同 System V 中 的 信号 量 系统 调用 一 样 。 
用 户 进程 使 用 内 核实 现 IPC 可 以 有 4 种 不 同 的 机 制 : 
B 管道 (以 及 有 名 管道 ) ”这 些 机 制 提供 与 文件 一 样 的 接口 ， 非 常 类 似 于 一 个 文件 的 实现 。 一 个 管道 
使 用 一 个 4KB 的 循环 缓冲 ， 通 过 read () M write O 系统 调用 将 信息 从 一 个 地 址 空间 移动 到 另 一 
个 中 。 从 进程 管理 的 角度 看 ， 这 个 过 程 是 直接 的 。 , 
图 System V IPC 这 个 接口 允许 用 户 进 程 在 内 核 中 创建 IPC 对 象 (如 信号 量 )。 内 核 分 配 数据 结构 实 
例 ， 然 后 把 它 与 一 个 用 户 空间 的 标识 号 相关 联 ， 该 标识 号 在 用 户 进程 间 被 共享 。 在 信和 号 量 的 情形 








506 # 20% 





中 ， 一 个 进程 创建 了 信和 号 量 ， 然 后 其 他 进程 使 用 外 部 引用 和 操作 来 操纵 它 。 信 和 号 量 语 义 是 使 用 一 个 
wait _ queue 实 例 来 实现 的 。System V 消息 通用 化 了 这 种 方法 ， 结 构 化 消息 可 以 被 保存 到 内 核 数据 
结构 中 ， 或 者 从 内 核 数据 结构 中 获取 消息 。 

E System V 共享 存储 ”共享 存储 是 System V IPC 机 制 的 一 种 功能 。 在 这 种 情形 中 ,在 内 核 中 分 配 一 
个 主 存 块 ， 然 后 不 同 的 进程 使 用 一 个 外 部 引用 来 访问 该 部 分 主 存 。 

BEEF ”该 机 制 是 网 络 套 接 字 功能 的 一 种 特殊 情形 。 在 一 个 套 接 字 实 现 中 ， 要 求 内 核 来 分 配 和 管理 
缓冲 空间 以 及 套 接 字 描 述 表 。 虽 然 在 “UNIX 的 名 字 域 ”中 被 作为 管道 的 形式 来 使 用 ， 这 些 内 核实 
体 通常 是 被 网 络 代 码 所 使 用 。 不 同 于 管道 的 是 ， 它 们 是 完全 双向 的 ， 并 且 被 设计 为 读 、 写 信息 的 一 
种 协议 。 . 

20.4.4 调度 程序 


调度 程序 (scheduler) 负责 对 在 主 存 中 的 程序 间 ， 即 在 处 于 TASK RUNNING 状态 的 进程 间 复 用 CPU 
( 见 7.6 节 )， 它 结 含有 选择 下 一 个 进程 来 占用 CPU 的 策略 。schedule () 内 核 函数 可 以 经 由 一 条 自 陷 指令 
激活 ， 它 也 可 以 作为 ret _from_sys_call 代码 块 的 一 部 分 被 调用 ， 因 而 它 总 是 作为 一 个 与 用 户 进程 或 中 
断 相关 的 任务 运行 。 调 度 程序 负责 确定 哪 一 个 可 运行 的 任务 具有 最 高 优先 级 ， 然 后 将 CPU 分 配给 它 。 

schedule () 可 在 不 同 的 系统 调用 函数 中 被 调用 (例如 ， 当 进程 变 成 阻塞 状态 时 ) ， 在 每 次 系统 调用 
以 及 慢 速 中 断 处 理 结束 后 也 会 被 调用 。 每 次 调用 调度 程序 时 ， 它 执行 周期 性 的 工作 〈 如 运行 设备 下 半 部 
分 )， 在 TASK _ RUNNING 状态 的 任务 集中 根据 调度 策略 来 选择 一 个 执行 ， 为 任务 分 配 CPU 来 让 它 运行 直到 
中 断 发 生 。 

在 版 本 2.0 后 ， 调 度 程序 内 有 三 种 不 同 的 调度 策略 : 这 是 由 常量 SCHED _ OTHER, SCHED _ FIFO 和 SCHED 
_ RR 来 标识 的 。 每 个 进程 的 调度 策略 可 以 在 运行 时 使 用 sched _ setscheduler () 系统 调用 来 设置 (在 ker- 
nel/sched.c 中 定义 )。 任 务 的 当前 调度 策略 保存 在 policy 域 。SCHED _ FIFO 和 SCHED _ RR 调度 策略 对 实时 
要 求 是 敏感 的 ， 所 以 它们 使 用 范围 [0:99] 内 的 调度 优先 级 ，SCHED _ OTHER 仅 处 理 0 优先 级 。 在 任务 描述 
表 中 ， 每 个 进程 也 有 priority 域 。 概 念 上 ， 调 度 程序 有 一 个 100 级 的 多 级 队列 (对 应 于 优先 级 从 0 到 
99)。 当 一 个 进程 就 绪 时 ， 如 果 其 优先 级 比 当前 正在 运行 的 进程 高 ， 则 低 优 先 级 的 进程 会 被 剥夺 ， 而 高 优 
先 级 的 进程 会 开始 运行 。 当 然 ， 在 正常 的 分 时 (SCHED _ OTHER) 策略 中 ， 进 程 不 会 剥夺 另 一 个 进程 ， 因 为 
它们 的 优先 级 都 为 0。 

任何 使 用 SCHED _ FIFO 策略 的 任务 /进程 必须 有 超级 用 户 权限 并 且 其 优先 级 为 1 到 99 REH, € 
比 所 有 的 SCHED _ OTHER 任务 的 优先 级 都 高 )。 因 此 ， 当 任何 SCHED_ FIFO 任务 变 成 就 绪 状 态 时 ， 它 的 优先 级 
比 每 个 SCHED _ OTHER 任务 要 高 。SCHED _ FIFO 策略 在 时 钟 中 断 处 理 时 并 不 会 重新 调度 ， 一 日 一 个 scHEp _ 
FIFO 任务 使 用 CPU， 它 会 一 直 运 行 直到 完成 ， 或 通过 一 个 1/0 调用 阻塞 ， 或 调用 sched _yield (), 或 直 
到 高 优先 级 的 任务 变 成 就 绪 状 态 。 如 果 它 放弃 了 或 被 另 一 个 更 高 优先 级 的 任务 所 剥夺 ， 它 就 被 放置 到 同一 
优先 级 的 任务 队列 的 末尾 。 

SCHED _ RR 策略 和 SCHED _ FIFO 策略 有 相同 的 通用 特征 ,但 SCHED _ RR 策略 使 用 时 间 片 机 制 在 高 优先 级 
的 任务 间 复 用 CPU。 如 果 正 在 运行 的 ScHED _ RR 任务 被 一 个 更 高 优先 级 的 任务 剥夺 了 ， 它 被 置 人 队列 的 头 
部 ， 这 样 当 它 的 优先 级 再 次 为 最 高 时 ， 它 就 会 恢复 执行 。 被 剥夺 的 进程 然后 能 完成 它 的 时 间 片 。 

SCHED _ OTHER 策略 是 默认 的 分 时 策略 ， 它 使 用 传统 的 时 间 片 机 制 〈 会 在 时 钟 中 断 上 重新 调度 )， 如 果 有 其 
他 的 任务 在 等 候 使 用 处 理 机 ， 系 统 对 任务 可 以 持续 使 用 CPU 的 时 间 量 设 定 了 一 个 上 限 。 在 其 他 两 种 策略 中 
用 来 区 分 任务 的 优先 级 在 这 种 策略 中 被 忽略 了 。 相 反 ， 优 先 级 通过 基于 nice () 或 setpriority () 系统 调用 
分 配给 任务 的 值 和 进程 等 候 CPU 的 时 间 量 来 计算 。 进 程 描述 表 中 的 counter 域 在 确定 任务 的 动态 优先 级 中 成 
了 关键 的 成 分 : 它 在 每 次 时 钟 中 断 处 理 时 进行 调整 (中断 处 理 程序 为 每 个 任务 调整 不 同 的 计时 器 域 )。 


20.5 存储 管理 器 ' 


Linux 采用 了 一 种 请 调 页 式 虚拟 存储 器 模型 作为 存储 管理 设计 的 基础 ( 见 12.5 节 )。 在 该 模型 中 ， 每 
个 进程 被 分 配 有 自己 的 虚拟 地 址 空间 。 当 进程 引用 虚拟 地 址 时 ， 系 统 会 在 访问 存储 位 置 之 前 ， 把 这 种 引用 
映射 到 一 个 主 存 地 址 (也 称 为 物理 的 ) 上 。 内 核 和 硬件 一 -起 来 确保 把 虚拟 存储 器 中 的 内 容 放 置 到 物理 存储 
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器 中 , 并且 在 它 被 进程 引用 时 ， 相 应 的 虚拟 地 址 被 绑 定 到 正确 的 物理 存储 位 置 。 

像 所 有 请 调 页 式 虚拟 存储 管理 器 一 样 ， 页 是 存储 分 配 和 传送 的 基本 单元 。 在 i386 的 实现 中 ， 每 个 页 包 
BA 2” (4096) 个 字 节 。 由 于 Linux 使 用 了 一 种 页 式 虚 拟 存储 器 方法 ， 因 而 管理 器 职责 的 一 般 特 征 如 下 : 

m 块 作为 物理 存储 页 帧 被 进行 分 配 或 去 配 。 

里 保护 机 制 是 在 逐 页 基础 上 进行 的 。 

BS 主 存 的 共享 是 基于 页 的 。 

BS 在 存储 层次 间 数 据 的 自动 移动 ， 是 通过 在 辅 存 和 主 存 之 间 来 回 移动 页 而 进行 的 。 

每 个 进程 在 创建 时 都 带 有 自己 的 虚拟 地 址 空间 。 在 i386 体系 结构 中 ， 一 个 虚拟 地 址 是 32 位 的 ， 意 味 
着 地 址 空间 可 达 4 GB。 由 于 一 个 页 有 22 个 字 节 ， 因 而 这 意味 着 在 一 个 地 址 空间 中 会 有 TH, 

每 个 虚拟 地 址 空间 被 划分 成 段 一 一 个 3 GB 的 用 户 段 和 一 个 1 GB 的 内 核 段 。 通 过 操作 系统 将 信息 映 
射 到 指定 的 虚拟 地 址 上 ， 程 序 员 可 以 使 用 用 户 段 中 的 任意 地 址 来 访问 进程 的 所 有 代码 和 数据 ， 没 有 被 映射 
的 虚拟 地 址 就 不 能 使 用 。 内 核 段 中 的 虚拟 地 址 被 永久 地 映射 和 关联 到 内 核 使 用 的 固定 物理 主 存 地 址 上 。 这 
意味 着 ， 每 个 进程 的 虚拟 地 址 空间 都 共享 同一 -个 内 核 段 ， 因为 内 核 虚拟 地 址 都 映射 到 了 内 核 所 使 用 的 物理 
地 址 上 。 

每 个 内 核 段 和 用 户 段 都 可 以 进一步 被 划分 成 代码 和 数据 区 。 每 个 虚拟 地 址 都 包含 有 一 个 区 标识 号 以 及 
区 内 的 偏 移 量 。 当 CPU 处 于 指令 的 取 阶 段 时 ， 它 总 是 访问 一 个 代码 区 (在 用 户 段 或 者 内 核 段 中 )。 因 而 ， 
编译 器 不 必要 产生 一 个 区 标识 号 作为 指令 所 使 用 地 址 的 一 部 分 〈 没 有 必要 有 专门 的 Linus 目标 代码 格式 )。 

只 要 一 个 进程 在 执行 时 ， 它 的 状态 中 一 定 包 括 有 一 个 段 选择 开关 (segment selector) 。 如 果 进 程 在 用 户 
空间 中 执行 ， 那 么 段 选择 开关 就 被 设置 为 user; 如 果 进 程 在 内 核 空 间 中 执行 ， 段 选择 开关 就 被 设置 为 ker- 
nel。 存 储 管理 器 通过 使 用 段 选择 开关 的 值 以 及 进程 所 提供 的 偏 移 地 址 来 形成 虚拟 地 址 。Linux 提供 了 相应 
的 宏 ， 可 为 虚拟 地 址 空间 中 4 个 段 的 每 一 个 设置 选择 开关 。 

虚拟 地 址 空间 中 被 映射 的 部 分 被 分 成 4KB 的 页 ， 被 映射 的 页 的 内 容 可 以 位 于 辅 存 交换 空间 中 (或 一 
.个 文件 或 文件 系统 中 )。 然 而 ， 并 不 是 所 有 的 虚拟 地 址 内 容 都 会 在 虚拟 地 址 被 定义 时 得 到 指定 。 例 如 ， 编 
译 器 可 以 使 得 空间 被 保留 但 不 会 被 初始 化 ， 用 于 堆 和 栈 的 空间 就 是 这 类 例子 。 被 映射 了 的 但 是 没有 初始 内 
容 定义 的 虚拟 地 址 空间 块 称 为 匿名 存储 (anonymous memory) 块 。 

图 20-5 概括 了 虚拟 存储 管理 器 的 组 件 ，- - 旦 位 于 交换 空间 中 的 信息 被 映射 到 虚拟 地 址 空间 中 ( 见 图 
中 的 do_mmap () 隆 数 )， 进 程 便 准备 执行 。 当 进程 试图 取 它 的 第 一 条 指令 时 ， 它 访问 包含 程序 人 口 点 的 
虚拟 地 址 空间 部 分 。 如 果 页 地 址 转换 硬件 检测 到 页 没有 被 加 载 ， 它 将 引发 一 个 缺 页 中 断 。 正 常 的 内 核 中 断 
处 理 机 制 会 执行 标准 的 处 理 ， 然 后 调用 缺 页 处 理 程序 (do_page_ fault ())。 缺 页 处 理 程序 负责 确定 虚拟 

地 址 访问 是 否 在 虚拟 地 址 空间 内 ， 如 果 是 ， 就 从 交换 空间 得 到 所 缺 页 的 信息 。 

加 载 页 时 ， 缺 页 中 断 处 理 程序 需要 找到 一 个 主 存 位 置 来 将 页 加 载 进 主 存 中 ， 然 后 更 新 页 目录 、 页 中 级 
目录 和 页 表 ( 见 12.5 节 )。 在 页 被 加 载 后 一 一 缺 页 处 理 程序 已 经 完成 一 -引发 中 断 的 指令 再 次 执行 ， 这 次 
确保 了 原来 未 加 载 的 页 已 经 被 加 载 。 当 进程 持续 执行 时 ， 它 会 访问 包含 程序 以 及 程序 执行 所 访问 数据 的 不 
同 页 。 每 次 进程 访问 虚拟 地 址 时 ， 如 果 其 所 在 页 当前 没有 被 加 载 到 主 存 中 ， 则 会 发 生 缺 页 中 断 。 


20.5.1 虚拟 地 址 空间 


当 一 个 进程 被 创建 时 ， 它 从 父 进 程 继承 了 32 位 (4GB) 虚拟 地 址 空间 。 当 在 用 户 态 下 执行 时 ， 进 程 可 
以 使 用 位 置 0x0 到 0xBFFFFFFF 的 空间 ; 当 在 核心 态 下 执行 时 ， 进 程 可 以 使 用 位 置 0xC0000000 到 
OxFFFFFFFF 的 空间 。 最 后 的 1GB 存放 内 核 程 序 与 数据 ， 每 个 进程 地 址 空间 的 这 一 部 分 都 有 相同 的 映射 。 
根据 12.5 节 介 绍 的 体系 结构 无 关 模 型 ， 每 个 进程 使 用 相同 的 页 表 来 访问 内 核 使 用 的 地 址 (意味 着 在 每 个 
进程 中 ， 这 部 分 地 址 空间 的 页 中 级 目录 项 访问 相同 的 页 表 )。 

段 的 概念 将 内 核 地 址 与 用 户 空间 地 址 区 分 开 来 ， 一 个 完整 的 虚拟 地 址 必须 指定 段 选择 开关 (用 户 或 内 
核 )。 每 个 段 被 分 成 持 有 数据 (可 以 被 读 或 写 ) 和 代码 ( 仅 能 被 执行 和 读 ) 的 段 。 用 户 代码 为 用 户 隐 式 地 
设置 了 段 选择 开关 ， 所 以 代码 仅 提 供 了 用 户 段 内 的 偏 移 量 。 每 个 段 有 自己 的 页 表 (进程 的 页 表 集 合 保存 在 
页 中 级 目录 中 )。 存 储 转换 机 制 可 以 阻止 用 户 空间 进程 访问 核心 段 中 的 位 置 ， 反 之 亦 然 。 
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do_mmap () 








一 创建 /引用 
述 


-pe 


-> 调用 /激活 











图 20-5 虚拟 存储 组 件 
TE: 这 幅 图 显示 了 软件 组 件 〈 圆 角 方 框 ) 和 硬件 组 件 〈 方 角 方 框 )。do _ mmap() 函数 将 地 址 绑 定 到 内 部 数据 结 


构 ， 使 得 当 缺 页 中 断 在 给 定 的 地 址 上 发 生 时 ， 缺 页 处 理 程序 能 发 现 缺 页 信息 的 细节 。 地 址 转换 机 制 在 12.5 
节 中 进行 了 描述 。 


start_code=0x0 


-end_code 
start data 

end_data 
start brk 


brk 


0x40000000 


end_code 


共享 C 库 


end_data (Repeated) 


end_bss 
oy 


| 指向 参数 及 环境 变量 


stack start 





arg_start 


arg_end 参数 
env_start 
env_end 环境 变量 
0xC0000000 


图 20-6 ”用 户 空间 格式 
: 该 图 表示 了 一 个 存储 映射 的 详细 信息 (与 图 11-11 的 高 级 视图 相 比 较 )。 存 储 映 射 描述 了 进程 用 户 空间 ( 文 
本 、 数 据 、 栈 、 堆 及 共享 库 空 间 ) 的 布局 。 


用 户 空间 段 的 组 织 与 Linux 版 本 和 加 载 格式 (a.out, COFF 或 ELF) 有 关 。 图 20-6 解释 了 版 本 2.0 中 
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ELF 的 布局 [Beck, et al.，1998]。 堆 朝 着 BSS 区 域 之 上 的 地 址 方向 增长 。 栈 从 参数 和 环境 变量 处 朝 着 低 
地 址 方向 增长 。 共享 C 库 (作为 一 组 代码 、 数 据 和 BSS) 被 映射 到 位 置 0x40000000 处 的 地 址 空间 并 朝 高 
地 址 空间 发 展 。 当 加 载 程 序 (或 任何 形式 的 exec ORAWA) 运行 时 ,在 start _ code 和 brk 之 间 的 地 址 
空间 部 分 被 映射 ， 使 得 新 的 存储 映像 被 绑 定 到 具体 的 虚拟 地 址 。 这 些 虚 拟 地 址 由 加 载 程 序 保存 到 进程 描述 
表 的 mm SRP . 

brk () 系统 调用 也 会 引起 地 址 映射 。hrk O 的 目的 就 是 扩展 进程 使 用 的 虚拟 地 址 空间 的 大 小 ， 这 个 大 - 
.小 可 以 在 加 载 时 由 加 载 程序 或 exec () 来 设 定 ， 并 且 可 在 运行 时 由 brk () 来 修改 。 当 brk ( 见 mm/rmap.c) . 
被 调用 时 ， 它 进行 不 同类 型 的 错误 检查 并 调用 do _ mmap ()。 


20.5.2 ” 缺 页 处 理 程序 | 


缺 页 处 理 程序 负责 在 物理 存储 器 中 找到 空闲 页 帧 (可 能 将 存在 的 页 帧 交换 回 交换 空间 )， 将 所 需 的 页 
加 载 到 页 帧 中 ， 并 调整 页 表 。 像 Mach 一 样 ，Linux 也 为 地 址 空间 的 共享 页 使 用 了 写 时 复制 策略 ， 当 任何 
一 个 进程 试图 写 标识 有 写 时 找 贝 的 页 时 (也 就 是 说 ， 标 识 为 只 读 )， 写 操作 会 引发 一 个 写 页 错 。 地 址 转换 
机 制 在 检测 到 缺 页 或 其 他 的 页 面 失效 时 〈 如 保护 错 )， 会 引起 中 断 0x80。 系 统 中 断 处 理 程序 会 调用 相应 的 
函数 来 处 理 这 个 中 断 。 

正常 的 缺 页 和 写 时 复制 缺 页 都 会 被 缺 页 处 理 程序 处 理 。 就 写 时 复制 缺 页 而 言 ， 缺 页 处 理 程序 会 简单 地 拷贝 
主 存 中 的 页 而 不 是 从 辅 存 中 得 到 页 ， 然 后 重 置 两 个 地 址 空间 中 的 页 描述 表 ， 使 得 不 会 引发 另外 的 缺 页 异常 。 

存储 管理 器 使 用 动态 的 页 分 配 策略 ， 意 味 着 分 配给 进程 的 页 帧 号 会 根据 特定 进程 和 系统 中 的 整个 活动 
的 行为 而 变化 。 这 儿 ， 进 程 行为 指 的 是 进程 工作 集 的 大 小 一 一 进程 在 任何 给 定时 刻 使 用 的 页 的 数目 。 例 
如 ， 进 程 可 能 使 用 10 个 不 同 的 页 来 包含 代码 ， 另 15 个 页 用 来 包含 数据 ， 则 工作 集 的 大 小 就 是 25 页。 另 
一 个 进程 可 能 仅 使 用 12 个 代码 页 和 6 个 数据 页 ， 总 共 18 个 页 。 当 一 个 进程 产生 缺 页 时 ， 存 储 管理 器 通常 
会 分 配 另 外 的 页 帧 来 加 载 所 缺 页 。 因 此 ， 当 一 个 进程 需要 另 一 个 页 帧 时 ， 一 些 其 他 的 进程 可 能 会 失去 一 个 
页 帧 (管理 器 可 能 会 选择 其 他 的 页 帧 池 ， 如 共享 类 库 使 用 的 页 、 存 储 映射 文件 使 用 的 页 或 用 于 设备 缓冲 的 
页 )。 


20.6 文件 管理 


Linux 文件 管理 器 为 文件 定义 了 一 个 单一 
的 应 用 软件 视点 ， 可 以 使 用 各 种 不 同 的 文件 管 
理 器 来 读 取 不 同文 件 系统 上 的 文件 、 修 改 存 储 
设备 上 的 文件 。 例如， 通过 一 个 使 用 Linux 文 
件 管理 器 的 Linux 应 用 程序 ， 可 以 读 或 重 写 磁 
盘 上 原来 使 用 MS-DOS 所 写 人 的 文件 (或 者 是 
Windows 操作 系统 中 使 用 DOS 兼容 格式 写 人 的 
文件 )。 

在 Linux 和 MS-DOS 中 , 文件 是 存储 在 永 
久 存 储 设备 (如 磁盘 、CD-ROM 或 磁带 ) 上 的 
有 名 线性 字 节 序列 。 文 件 管理 器 支持 目录 和 文 
件 操作 。 目 录 操 作用 来 操作 目录 层次 ， 文 件 操 
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”作用 来 操作 存储 在 文件 中 的 信息 ， 这 些 函 数 被 图 20-7 文件 1/O 概 述 
用 于 进程 读 写 文件 。 注 ，Linux 文件 1/O 是 文件 管理 器 、 存 储 管理 器 (缓冲 
执行 文件 1/0 操作 的 系统 调用 有 打开 /关闭 管理 ) 和 设备 管理 器 的 协调 活动 。 输 出 操作 让 信息 
文件 、 读 / 写 文件 、 在 文件 字 节 流 中 移动 文件 位 置 人 缓冲 由， 设备 驱动 程序 会 得 到 它 ， 然 后 将 它 写 
置 指针 (1seek ()) 等 ， 如 图 20-7 所 概括 的 人 存储 设备 中 。 文 件 管理 器 会 启动 读 操作 来 为 应 用 
软件 填充 输入 缓冲 。 


文件 管理 器 通过 将 信息 放 人 一 个 或 多 个 输出 组 
冲 中 来 对 write () 函数 调用 进行 处 理 。 如 果 缓 冲 满 了 ,文件 管理 器 会 将 写 请 求 排 到 设备 驱动 程序 的 请 求 
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队列 。 当 设备 驱动 程序 检测 到 存储 设备 空闲 时 ， 并 且 它 确定 下 一 个 缓冲 就 是 要 写 的 缓冲 ， 那 么 它 初始 化 一 
个 写 操作 将 信息 从 输出 缓冲 传输 到 存储 设备 上 。 读 操作 会 促使 文件 管理 器 确定 当前 的 文件 位 置 并 发 出 一 个 
读 操作 请 求 给 设备 驱动 程序 ， 使 得 用 户 进程 在 struct file_ operations 接口 上 执行 读 调 用 之 前 ， 数 据 将 会 
置 人 输入 缓冲 中 。 下 面 的 讨论 描述 了 打开 /关闭 操作 和 读 / 写 操作 更 多 的 细节 (包括 块 缓冲 )。 

Linux 文件 的 内 部 视图 为 可 以 保存 在 辅 存 系统 中 的 有 名 字 节 流 。 字 节 流 被 划分 成 一 组 块 ， 根 据 特定 文件 
系统 类 型 选择 的 策略 ， 块 被 存储 在 辅 存 设备 上 。 文 件 管理 器 取得 包含 部 分 字 节 流 的 块 ， 然 后 应 用 程序 就 可 以 
读 或 写字 节 流 。 也 就 是 说 ， 当 要 读 写字 节 流 的 任何 一 部 分 时 ， 文 件 管理 器 负责 确定 应 该 读 写 哪个 磁盘 块 。 

通常 的 磁盘 块 读 写 操作 使 得 文件 管理 器 至 少 缓冲 一 个 输入 扇 区 和 一 个 输出 扇 区 。 如 图 20-8 所 总 结 的 ， 
可 以 让 大 量 的 缓冲 用 于 输入 和 输出 流 上 。 这 能 提高 读 写 性 能 : 文件 管理 器 可 以 在 输入 流 上 预 读 ， 这 样 可 以 
避免 在 读 操 作 处 理 时 进行 扇 区 读 操 作 。 同 样 地 ， 文 件 管理 器 可 以 进行 延迟 写 ， 使 得 线程 不 必 进 入 阻塞 状态 
等 候 肩 区 写 操作 完成 。 

通常 情况 下 ， 缓 冲 是 在 内 核 空间 中 实现 的 ， 尽 管 你 也 可 以 在 用 户 空间 中 实现 相同 的 机 制 。 其 思想 就 是 
设计 文件 管理 器 使 得 它 使 用 异步 1/O 来 启动 扇 区 读 HEN MAK) 和 写 (在 当前 文件 指针 后 写 N 个 扇 
区 )。 当 应 用 级 读 操作 请 求 还 没有 得 到 被 读 取 的 信息 时 ， 在 返回 结果 给 应 用 程序 之 前 ， 必 须 等 候 设 备 读 操 
作 完 成 。 当 文件 管理 器 在 缓冲 i 上 的 读 操作 完成 时 ， 它 可 以 立即 在 户 区 i+ 1 上 启动 异步 读 。 在 内 核 空间 
实现 中 ， 当 设备 完成 IO 操作 时 ， 由 中 断 来 通知 软件 。 在 用 户 空间 缓冲 管理 器 中 ， 可 以 用 信和 号 (或 其 他 形 
式 的 异步 过 程 调用 ) 来 通知 应 用 程序 扇 区 读 操 作 已 经 完成 。 





读 字 节 流 
读 庸 区 
写字 节 流 
Bak 
图 20-8 缓冲 扇 区 


注 : 文件 管理 器 通过 预 读 和 延迟 写 来 控制 缓冲 的 使 用 。 设 备 1/O 是 异步 的 ， 它 受到 文件 管理 器 的 控制 。 


文件 管理 器 的 文件 系统 无 关 部 分 处 理 一 般 的 操作 ， 如 检查 访问 权限 、 确 定 何 时 对 磁盘 块 进行 读 写 等 。 
文件 管理 器 的 另 一 部 分 处 理 所 有 文件 系统 的 相关 工作 ， 如 确定 块 在 磁盘 上 的 位 置 、 指 示 驱 动 程序 来 读 写 具 
体 的 块 。 这 两 部 分 程序 一 起 提供 了 一 组 固定 的 API 来 处 理 文件 ， 也 可 以 处 理 使 用 Windows 操作 系统 、 
MINIX 或 其 他 的 操作 系统 写 的 文件 。 ， 

Linux 文件 管理 器 的 API 是 建立 在 抽象 的 文件 模型 上 的 ， 它 是 通过 虚拟 文件 系统 (VFS) 所 导出 的 ， 
如 13.7 节 和 16.1 节 所 解释 的 。VFS 实现 了 文件 系统 无 关 操 作 。 操 作 系统 设计 者 提供 了 对 VES 的 扩展 ， 
实现 对 所 有 请 求 的 文件 系统 相关 操作 。2.x 的 发 行 版 本 可 以 读 、 写 磁盘 文件 ， 该 文件 可 以 是 MS-DOS 格式 
的 、MINIX 格式 的 、/proc 格式 的 、 一 种 称 之 为 Ext2 的 Linux 特殊 格式 以 及 其 他 的 格式 。 当 然 ， 这 意味 着 
在 2.x 版 本 中 要 包含 相关 的 特殊 文件 系统 组 成 部 件 ， 将 VES 操作 转换 到 所 支持 的 外 部 格式 ， 或 者 转换 成 
VFS 操 作 。 

VFS 的 核心 是 开关 表 (switch) ， 它 给 用 户 空间 程序 提供 了 规范 的 文件 管理 API， 并 且 也 建立 了 一 个 内 
部 接口 ， 该 接口 由 支持 MS-DOS 文 件 、MINIX 文件 、Ext2 文件 等 不 同 的 文件 系统 转换 程序 所 使 用 ( 见 图 
20-9)。 一 种 新 的 文件 系统 可 以 通过 实现 一 种 新 的 文件 系统 相关 部 件 (“ 转 换 程序 ”") 来 获得 支持 。 每 种 这 
样 的 转换 程序 都 提供 了 VFS 开关 表 可 以 调用 的 功能 ( 当 它 被 一 个 用 户 程序 所 调用 时 )， 并 且 它 可 以 将 外 部 
文件 的 表达 方式 翻译 成 内 部 形式 。 转 换 程序 负责 确定 组 织 磁盘 设备 上 的 磁盘 块 所 采用 的 策略 ; 用 于 读 、 写 
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磁盘 属性 ; 读 、 写 外 部 文件 控制 块 信息 ; 以 及 读 、 写 包含 文件 数据 的 磁盘 块 。 





图 20-9 ”VFS 开关 表 
TE: VFS 允许 Linux 支持 大 量 不 同 的 文件 系统 。Linux 的 标准 发 布 版 本 支持 MS-DOS、Ext2、ISO 9000 和 其 他 的 
文件 系统 。 


VFS 文 件 系统 模型 是 对 传统 UNIX 文件 系统 的 仿制 。 一 个 VFS 文 件 描述 表 被 称 为 inode ( 它 有 自己 的 
支持 多 文件 系统 方法 的 独特 格式 )。 尽 管 VFS 包含 有 它 自 己 的 文件 描述 表格 式 ， 但 每 种 文件 系统 相关 的 转 
换 程序 在 文件 被 打开 时 将 外 部 文件 描述 表 的 内 容 转 换 到 VFS inode 的 格式 。 然 后 VES 在 它 自己 的 inode 数 
据 结构 上 进行 操作 。 反 过 来 ， 当 文件 被 关闭 时 ， 内 部 inode 的 内 容 可 用 于 更 新 外 部 的 文件 描述 表 。 

VES inode 包含 有 文件 的 访问 权限 、 所 有 者 、 所 有 者 所 在 的 组 、 文 件 大 小 、 创 建 的 时 间 、 上 次 访问 时 
间 、 上 次 写 文件 的 时 间 等 ， 其 中 也 有 为 指针 机 制 所 预 留 的 空间 ， 特 定 的 文件 系统 利用 该 机 制 来 组 织 磁盘 
块 ， 即 使 VFS 不 知道 这 些 指针 将 怎样 被 组 织 在 一 起 (该 信息 被 封装 在 文件 系统 相关 的 转换 程序 中 )。VFS 
也 支持 目录 ， 因 此 它 假定 外 部 文件 目录 中 至 少 包 含有 存储 在 目录 中 的 每 个 文件 的 名 字 ， 以 及 文件 描述 表 的 
地 址 (几乎 所 有 的 文件 系统 都 包含 有 这 些 信息 )。 

VES 假定 了 磁盘 组 织 结构 中 的 最 小 结构 : 

u 磁盘 中 的 第 一 个 扇 区 是 一 个 引导 块 ， 用 于 存储 引导 程序 。 文 件 系统 并 没有 真正 使 用 引导 块 ， 但 假定 

在 每 个 文件 系统 中 都 存在 。 

加 有 一 个 包含 了 特殊 磁盘 信息 的 超级 块 ， 如 包含 磁盘 块 中 的 字 节 数目 等 。 

m 磁盘 上 有 外 部 的 文件 描述 表 ， 描 述 了 每 个 文件 的 特征 。 

B 有 若干 个 链接 到 文件 中 的 数据 块 ， 用 于 包含 文件 数据 。 

在 VFS 可 以 管理 一 个 指定 的 文件 系统 类 型 之 前 ， 必 须要 编写 该 类 型 的 转换 程序 并 且 向 VFS 注册 。 通 
过 VFS 的 register _ filesystem () 函数 通知 VFS 特定 文件 系统 的 基本 信息 ， 包 括 文件 系统 类 型 的 名 字 以 
及 该 文件 系统 的 read _ super () 函数 人 口 点 ， 该 函数 将 在 文件 系统 被 安装 时 使 用 。 


20.7 小 结 


Linux 在 过 去 的 十 年 内 变 得 非常 流行 ,很 大 一 部 分 原因 是 由 于 它 的 开放 源 代码 。Linux 设计 与 许多 
UNIX 内 核 类 似 ， 特 别 参考 了 BSD UNIX 设计 。Linux 不 同 于 许多 其 他 的 UNIX 版 本 的 一 个 重要 特点 是 模 
块 功能 。 尽 管 模块 主要 是 用 来 构建 设备 驱动 程序 的 ， 但 是 它们 可 用 来 动态 地 扩展 内 核 功能 。 

进程 管理 设施 类 似 于 其 他 的 UNIX 版 本 ， 尽 管 进程 管理 器 起 初 设计 成 仅 支持 单线 程 进程 ， 但 是 它 现在 
已 经 提供 了 完整 的 内 核 线程 支持 。 

存储 管理 器 使 用 了 动态 页 分 配 策略 ， 当 进程 被 创建 时 ， 都 分 配 了 4GB 地 址 空间 。1GB 地 址 空间 被 映 
射 到 内 核 ， 另 外 3GB 用 于 程序 员 定义 的 程序 和 数据 。 当 进程 需要 一 个 新 的 页 帧 时 ， 存 储 管理 器 会 从 文件 
系统 、 操 作 系统 的 另 一 部 分 或 另 一 个 进程 取得 页 帧 。 

文件 管理 器 是 围绕 着 虚拟 文件 系统 开关 表 (VFS) 建立 的 ， 文 件 管理 器 被 分 成 文件 系统 相关 部 分 和 文 
件 系 统 无 关 部 分 。 文 件 系统 无 关 部 分 用 于 所 有 的 文件 系统 ， 但 是 文件 系统 相关 部 分 封装 了 特定 文件 系统 需 
要 的 信息 。 这 一 机 制 允 许 管理 员 在 Linux 系统 上 安装 MS-DOS 软盘 ， 应 用 程序 可 以 读 写 软盘 ， 就 好 像 它 是 
一 个 本 地 的 Linux 文件 系统 一 样 。 








第 21 Windows NT/2000/XP 内 核 


Windows NT/2000/XP 操作 系统 既是 商业 上 的 领头 羊 ， 也 是 技术 上 的 领导 者 。 除 了 Linux 实例 外 ， 大 
量 的 Windows 操作 系统 实例 也 贯穿 于 本 书 中 。 本 章 着 重 介绍 实现 Windows NT、2000、XP 的 Windows NT/ 
2000/XP 内 核 技 术 。 


21.1 概述 


大 约 在 1980 年 ， 由 于 DOS 的 开发 ， 微 软 进 和 信 了 操作 系统 市 场 。 早 期 的 [BM 个 人 计算 机 上 安装 了 MS 
DOS， 称 为 PC-DOS。 在 20 世纪 80 年 代 ， 微 软 优化 了 MS-DOS， 最 后 发 展 到 可 以 支持 图 形 窗口 和 多 任务 。 
同时 ， 到 1990 Æ, Windows NT 操作 系统 的 研发 也 在 顺利 进行 中 ， 并 在 1993 年 7 月 公开 发 布 【Solomon， 
1998]。 在 1995 年 ， 微 软 发 布 了 Windows 95， 所 以 MS-DOS 操作 系统 被 两 个 新 的 Windows 操作 系统 替代 
T: Windows 95 和 Windows NT. Windows 95 设计 来 替代 个 人 计算 机 上 的 MS-DOS, 而 Windows NT 目标 
瞄准 在 配置 有 多 资源 的 机 器 一 一 工作 站 和 服务 器 。Windows 95 和 Windows NT 是 单独 开发 的 ， 所 以 它们 并 
没有 很 多 相同 的 代码 。 然 而 ，Windows 95 所 实现 的 API 是 Windows NT 所 支持 的 API 的 子 集 。Windows 
NT 版 本 4 于 1997 年 替换 了 首次 发 布 的 Windows NT 版 本 ， 这 也 是 开始 进入 商业 界 的 Windows NT 版本。 

Windows 2000 在 2000 年 早期 发 布 ， 尽 管 它 是 作为 Windows NT 版 本 5 来 开发 的 [Solomon, 1998], BI 
Windows 2000 和 Windows NT (4.0) 版 本 的 代码 相同 ， 但 是 它 是 Windows NT 4.0 的 优化 并 修改 了 很 多 
bug。 这 个 优化 解决 了 如 下 这 类 问题 : 支持 即 插 即 用 设备 的 安装 和 电源 管理 ,花费 了 很 大 的 努力 来 使 得 
Windows 更 稳定 (更 不 容易 死机 )。 

在 Windows 2000 之 后 不 久 ，Windows XP 在 2001 年 发 布 。 在 公开 发 布 之 前 ，Windows XP 是 作为 Windows 
NT 5.1 版 本 。Windows XP 意 在 成 为 Windows 2000 和 Windows 98 的 结合 (aK Windows 98 的 “Me” 版 本 )。 发 
布 版 有 一 个 新 的 用 户 界面 ， 它 也 结合 了 Windows 98 采用 的 但 Windows NT 中 并 没有 的 技术 。Windows XP t3 
容 .NET 软件 。 在 下 面 的 内 核 讨论 中 ,我 们 将 NT 的 版 本 3、 版 本 4、 版 本 5 软件 称 为 “NT 内 核 ”。 

微软 操作 系统 是 今天 使 用 最 为 广泛 的 操作 系统 。 它 们 使 用 基于 进程 和 线程 的 现代 计算 模型 。 它 们 也 有 
一 个 底层 对 象 模 型 。 即 使 这 样 ，Windows NT 也 继承 了 早期 的 MS-DOS 的 特征 ， 它 继续 支持 为 MS-DOS 编 
写 的 16 位 应 用 程序 (当前 的 Windows 版 本 不 再 支持 16 位 MS-DOS). 

在 3.3 节 中 ， 我们 学 习 了 Windows NT 内 核 的 一 般 组 织 结构 。 图 21-1 (图 3-12 的 一 个 变化 ) 对 那 部 分 
讨论 进行 了 概括 ， 显 示 了 系统 的 主要 组 件 。 硬 件 抽象 层 (HAL) 组 成 了 操作 系统 的 第 一 层 一 一 这 使 得 操作 
系统 可 以 很 容易 地 从 一 个 平台 移植 到 另 一 个 平台 上 。NT 内 核实 现 了 通常 与 微 内 核 相关 的 许多 功能 ， 它 负 
责 处 理 中 断 、 线 程 调度 以 及 实现 整个 系统 中 使 用 的 对 象 。NT 执行 体 使 用 NT 内 核 设施 来 实现 进程 管理 器 、 
存储 管理 器 、 文 件 管理 器 及 设备 管理 器 框架 。 例 如 ， 线 程 描述 表 是 一 个 NT 执行 体 对 象 ， 它 包含 了 NTH 
行 体 知道 的 有 关 线 程 的 所 有 信息 ( 见 6.5 节 )。 它 也 包含 了 用 来 同步 父 线程 和 子 线程 的 一 个 嵌入 的 NT 内 
核对 象 。NT 执行 体 和 NT 内 核 一 起 实现 了 和 Linux 内 核 类 似 的 功能 。 然 而 ，NT 执行 体 和 内 核 (KA 2000 
个 函数 ) HE Linux AK (大 约 200 个 函数 ) 实现 了 更 多 的 系统 函数 。 

尽管 NT 执行 体 和 NT 内 核 是 作为 不 同 的 软件 模块 来 设计 和 实现 的 ， 但 在 它们 实际 执行 之 前 ， 它 们 被 
编译 链接 到 一 个 称 为 NTOSKRNL.EXE 的 可 执行 映像 中 [Solomon and Russinovicn，2000]。 当 需要 时 ， 
NTOSKRNL. EXE 也 会 调用 另外 的 动态 链接 库 (DLL)。 因 此 ，NT 的 逻辑 视图 (具有 微 内 核 的 模块 化 内 核 ) 与 
实际 出 现在 存储 器 中 的 可 执行 映像 的 方式 有 很 大 的 不 同 。 在 研究 Windows NT/2000/XP 时 ， 最 好 使 用 逻辑 
视图 来 考虑 问题 ， 因 为 这 就 是 设计 系统 时 使 用 的 模型 。 然 而 ， 在 编写 使 用 Windows NT/2000/XP 的 程序 
时 ， 知 道 操作 系统 是 作为 单一 的 可 执行 映像 来 实现 ， 可 能 有 时 会 对 你 使 用 操作 系统 的 方式 有 更 重要 的 影 
响 。 
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图 21-1 Windows NT/2000 组 织 
TE: Windows NT 操作 系统 体系 结构 逻辑 上 分 层 为 HAL、NT 内 核 、NT 执行 体 和 NT 执行 体 之 上 的 不 同 子 系统 。 
系统 调用 接口 是 由 Win32 子 系统 导出 的 Win32 API。1/O 子 系统 从 操作 系统 内 核 分 离 出 来 ， 并 包含 了 设备 驱 
动 程序 。 
NT 内 核 和 NT 执行 体 都 不 可 能 是 孤立 的 ， 操 作 系统 是 通过 NT 内 核 和 NT 执行 体 的 结合 而 形成 的 。 
Win32 子 系统 提供 了 一 个 传统 的 操作 系统 接口 。 即 Win32 子 系统 提供 了 Win32 API， 它 通常 被 认为 是 Win- 
dows NT/2000/XP 系统 调用 接口 ， 构 成 了 整个 Windows NT/2000/XP 操作 系统 的 一 部 分 。 


21.2 NT 内 核 


NT 内 核定 义 了 计算 的 基本 单元 一 一 线程 一 一 并 提供 多 线程 支持 的 基础 。 设 计 者 并 不 是 通过 把 任何 特 
定 的 方案 或 策略 委派 给 进程 管理 、 存 储 管理 、 文 件 管理 或 设备 管理 来 实现 上 述 功能 的 。 为 了 理解 NT 内 核 
提供 的 支持 层次 ， 可 以 把 NT 内 核 想像 为 提供 了 一 些 如 轮子 、 活 塞 、 灯 等 基本 构建 组 件 的 集合 体 ， 这 些 组 
件 可 用 来 制造 一 部 赛车 、 一 部 轿车 或 一 部 卡车 等 。 类 似 地 ，NT 内 核 的 客户 能 组 装 这 些 组 件 来 建立 一 个 复 
合 组 件 ， 其 中 定义 了 如 何 使 用 低层 组 件 的 策略 。 

NT 内 核 在 HAL 和 硬件 之 上 提供 了 对 象 和 线程 (计算 抽象 )。 可 以 使 用 对 象 和 线程 作为 原 语 来 定义 使 
用 NT 内 核 的 软件 一 一 即 这 些 抽 像 对 NT 内 核 客户 软件 来 说 像 是 硬件 的 一 部 分 一 样 。 为 了 实现 对 象 和 线 
程 ， 内 核 必须 管理 硬件 中 断 和 异常 ， 实 施 处 理 机 的 调度 ， 以 及 处 理 多 处 理 机 的 同步 。 


21.2.1 对 象 


NT 内 核定 义 了 一 组 内 置 的 对 象 类 型 ， 通 常 在 面向 对 象 的 语言 中 称 之 为 类 ( 见 2.5 节 )。 一 些 内 核对 象 
类 型 是 通过 NT 内 核 本 身 进行 实例 化 ， 来 形成 整个 操作 系统 执行 映像 中 的 其 他 部 分 。 这 些 对 象 共同 保存 和 
操纵 NT 内 核 的 状态 。 其 他 的 对 象 被 执行 体 、 子 系统 以 及 应 用 程序 代码 实例 化 和 使 用 ， 作 为 它们 计算 模型 
中 的 基础 。 即 Windows NT/2000/XP 以 及 它 的 所 有 应 用 程序 都 被 作为 对 象 由 NT 的 内 核 层 进行 管理 。 

NT 内 核对 象 应 该 是 快速 的 ， 它 们 都 在 核心 态 下 一 个 可 信 的 上 下 文中 运行 。 因 而 对 于 内 核对 象 而 言 不 
需要 安全 性 ， 而 只 进行 有 限 的 错误 检查 ; 而 正常 的 对 象 都 需要 有 这 些 特性 。 然 而 ， 内 核对 象 不 能 直接 通过 
用 户 模式 程序 进行 操纵 ， 而 只 能 通过 NT 内 核 函 数 调用 。NT 内 核对 象 既 可 以 作为 控制 对 象 ， 也 可 以 作为 
分 派 程序 对 象 进行 表现 。 控 制 对 象 实现 了 控制 硬件 和 其 他 内 核资 源 的 机 制 。 而 分 派 程序 对 象 被 用 于 实现 线 
程 的 调度 以 及 同步 操作 ( 见 9.1 节 )， 每 个 分 派 程序 对 象 有 用 于 支持 用 户 层 的 同步 的 内 置 特征 域 。 


21.2.2 线程 


Windows NT/2000/XP 的 进程 对 象 定义 了 一 个 或 多 个 线程 执行 的 地 址 空间 ， 并 且 每 个 线程 都 代表 进程 
内 的 一 个 计算 。 在 Windows NT/2000/XP 环境 中 ,通常 有 不 止 一 个 线程 在 进程 内 执行 。 把 线程 的 概念 从 进 
程 概念 中 分 离 出 来 ， 自 然 会 使 人 想到 单个 地 址 空间 内 会 有 几 个 不 同 的 “执行 的 线程 "， 它 们 都 共享 相同 的 
资源 。 

NT 线程 调度 程序 是 一 个 划分 时 间 片 的 、 基 于 优先 级 的 可 剥夺 的 调度 程序 ( 见 7.6 节 )。 处 理 机 分 配 的 
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基本 单元 是 一 个 时 钟 中 断 倍数 的 时 间 量 。 调 度 程 序 是 一 个 多 级 队列 调度 程序 ; 只 要 在 最 高 优先 级 队列 中 有 
线程 ， 这 些 线程 就 会 被 分 配给 处 理 机 。 如 果 在 那个 队列 中 没有 线程 ， 则 调度 程序 会 服务 次 高 优先 级 队列 中 
的 线程 。 如 果 在 次 高 优先 级 队列 中 没有 就 绪 线 程 ， 调 度 程序 会 服务 第 三 高 优先 级 队列 等 。 

线程 的 基 优 先 级 通常 是 从 父 进程 继承 的 。 如 果 调 用 者 可 以 设置 优先 级 ， 则 可 以 用 不 同 的 函数 调用 来 设 
置 。Win32 模型 定义 了 四 类 优先 级 (REAL TIME, HIGH, NORMAL 和 IDLE) ， 在 每 一 类 优先 级 中 ， 每 个 线程 有 
一 个 相对 的 线程 优先 级 (TIME CRITICAL, HIGHEST, ABOVE NORMAL, NORMAL, BELOW NORMAL, LOWEST 以 及 
IDLE), HIGH 类 的 线程 在 某 一 时 刻 可 在 ABOVE NORMAL 的 相对 优先 级 上 运行 ， 后 来 又 在 BELOW NORMAL 相对 优 
先 级 上 运行 。 基 优先 级 可 由 线程 的 类 和 类 的 NORMAL 相对 优先 级 来 定义 。 如 果 优 先 级 的 类 不 是 REAL TIME, 
线程 的 优先 级 将 是 可 变 的 。 在 这 种 情况 下 ，NT 会 根据 系统 的 条 件 来 调整 线程 的 优先 级 。NT 不 会 改变 在 
实时 级 中 的 线程 的 优先 级 。 

如 在 7.6 节 所 提 及 的 ， 调 度 程序 是 剥夺 式 的 ， 所 以 当 线 程 就 绪 运 行 时 ， 它 被 置 人 对 应 于 当前 优先 级 的 
运行 队列 中 。 如 果 在 那 时 有 一 个 低 优先 级 的 线程 在 运行 ， 则 低 优先 级 的 线程 会 被 中 断 (不 允许 完成 它 的 时 
间 片 )， 新 的 高 优先 级 的 线程 会 占用 处 理 机 。 


21.2.3 多 处 理 机 同步 


单 处 理 机 系统 可 以 通过 屏蔽 中 断 来 支持 同步 。 然 而 ，Windows NT/2000/XP 可 以 支持 多 处 理 机 ， 因 而 
NT 内 核 提供 了 一 种 可 替代 的 机 制 ， 来 保证 在 一 个 处 理 机 上 执行 的 线程 不 会 干扰 在 另 一 个 处 理 机 上 执行 的 
线程 的 临界 区 。NT 内 核 采用 了 在 多 处 理 机 操作 系统 中 使 用 的 经 典 的 旋转 锁 。 一 个 进程 上 的 线程 为 进入 临 
界 区 可 以 测试 旋转 锁 ， 通 过 主动 地 检测 一 个 NT 内 核 的 锁 变量 ， 来 确定 它 什 么 时 候 可 以 进入 临界 区 。 如 果 
硬件 支持 test-and-set 指令 (或 者 逻辑 上 等 价 的 其 他 机 器 指令 )， 那 么 就 可 以 使 用 硬件 来 实现 旋转 锁 。 旋 转 
锁 同步 只 被 用 于 NT 内 核 和 NT 执行 体内 ， 而 用 户 模式 程序 使 用 由 NT 执行 体 所 实现 的 抽象 来 进行 同步 
( 见 9.1 节 )。 


21.2.4 自 陷 、 中 断 和 异常 


在 Windows NT 术语 中 ， 内 核 自 陷 处 理 程序 负责 对 硬件 中 断 和 处 理 机 异常 (如 系统 服务 调用 、 执 行 异 
常 和 虚拟 存储 器 缺 页 ) 作出 反应 。 当 硬件 识别 出 一 个 中 断 或 处 理 机 异常 时 ，NT 自 陷 处 理 程序 进行 处 理 
( 见 图 21-2)， 它 负责 : 


中 断 异常 


自 陷 处 理 程序 





图 21-2 Windows NT 自 陷 处 理 程序 
注 : 自 陷 处 理 程序 结合 了 传统 的 自 陷 表 以 及 中 断 处 理 程序 的 功能 ， 它 是 自 陷 和 中 断 的 单个 分 布点 。 


1) RRP. 

2) 确定 中 断 或 异常 的 起 因 。 
3) 保存 处 理 机 状态 。 

4) 重 开 中 断 。 
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5) 如 果 需 要 的 话 ， 将 处 理 器 变 为 核心 模式 。 

6) 分 派 到 特定 的 代码 (中 断 服 务 例 程 ISR、 动 态 链接 库 、 异 常 处 理 程序 或 虚拟 存储 处 理 程序 ) 来 处 
理 。 

就 中 断 而 言 ， 自 陷 处 理 程序 通常 都 为 特定 的 中 断 运行 一 个 ISR; 对 于 异常， 自 陷 处 理 程序 可 以 自己 解 
决 这 个 问题 或 调用 合适 的 操作 系统 代码 来 对 异常 作出 反应 。 

如 在 操作 系统 的 所 有 系统 调用 接口 中 ， 当 应 用 程序 执行 引起 异常 的 指令 (trap 指令 ) 时 ， 就 会 调用 核 
心态 函数 。 处 理 机 模式 需要 从 用 户 态 切换 到 核心 态 ， 所 以 有 必要 使 用 自 陷 处 理 程序 来 调用 系统 函数 。 在 进 
行 切 换 之 前 ， 必 须 确保 要 执行 的 代码 〈 当 硬件 在 核心 态 执行 时 ) 是 可 信 软 件 。 因 此 ， 用 户 程序 不 允许 直接 
链接 和 调用 这 些 函 数 ， 它 们 仅 可 通过 自 陷 处 理 程序 来 调用 。 在 NT 内 核 中 ， 自 陷 处 理 程序 使 用 DLL 
(NTDLL.DLL) 来 对 调用 进行 认证 ， 并 启动 操作 系统 代码 。 应 用 将 NFDLL.DLL 链接 到 它 的 地 址 空间 ， 然 后 调 
用 DLL 中 的 人 口 点 。 它 们 被 转换 成 自 陷 〈 引 起 异常 的 硬件 机 制 ) 使 得 处 理 机 模式 被 切换 到 核心 模式 ， 然 
后 进行 一 个 安全 的 调用 。 

当 设 备 完成 一 个 操作 时 ， 设 备 使 用 中 断 来 通知 操作 系统 。NT 内 核 的 中 断 管理 通常 采取 了 和 其 他 操作 
系统 所 使 用 的 相同 设计 。 每 个 设备 操作 由 设备 驱动 程序 初始 化 。 初 始 化 设备 操作 的 线程 可 以 等 候 1/0 调用 
完成 (同步 MO 调用 ) ， 或 与 I/O 操作 并 发 运行 (异步 MO 调用 )。 传 统 上 (例如 ， 在 标准 的 C 程序 中 )， 
应 用 线程 使 用 同步 API 来 进行 同步 ID， 尽管 操作 系统 中 完全 支持 异步 ID。Windows NT/2000/XP， 扩 展 
了 传统 的 C 例 程 库 ， 使 得 应 用 程序 可 以 使 用 异步 LO 操作 。 

无 论 是 在 同步 还 是 异步 的 情况 下 ， 处 理 机 会 与 设备 操作 并 发 地 执行 一 一 在 异步 情况 下 是 调用 线程 的 代码 
与 设备 并 发 执行 ， 在 同步 情况 下 是 另 一 个 线程 的 代码 与 设备 并 发 执行 。 当 设备 完成 操作 时 ， 它 会 引发 一 个 中 
断 给 处 理 机 。 这 会 使 得 自 陷 处 理 程序 运行 ， 然 后 确定 哪个 设备 完成 了 1/O， 并 运行 处 理 相关 工作 的 ISR. 
次 用 户 移动 鼠标 、 按 下 一 个 键 或 从 网 络 上 接收 到 信息 时 ， 则 会 引发 一 个 中 断 ， 接 着 自 陷 处 理 程序 运行 ， 然 后 
调用 ISR 来 处 理 到 来 的 信息 。 


21.3 NT 执行 体 


NT 执行 体 建立 在 NT 内 核 之 上 ， 是 实现 Windows NT/2000/XP 策略 和 服务 的 全 部 集合 ， 包 括 进程 管 
理 、 存 储 管理 、 文 件 管理 以 及 设备 管理 。 由 于 Windows NT/2000/XP 使 用 了 面向 对 象 的 技术 ， 它 的 模块 化 
并 没有 严格 地 遵循 操作 系统 功能 的 典型 划分 ， 相 反 ，NT 执行 体 是 在 源 代码 级 作为 一 个 模块 化 的 元 素 集合 
被 设计 和 实现 的 [Solomon and Russinovich, 2000; Nagar, 1997], 


21.3.1 对 象 管理 器 


NT 执行 体 对 象 管理 器 是 在 NT 内 核对 象 管理 
器 之 上 实现 的 对 象 模 型 ( 见 图 21-3)。 内 核对 象 操 
作 在 可 信 环 境 中 进行 ， 执 行 体 对 象 被 执行 体 的 其 他 
部 分 和 用 户 模式 软件 使 用 ， 必 须 采取 一 些 另外 的 方 
法 来 确保 操作 安全 和 可 靠 。 
尽管 NT 执行 体 对 象 可 被 用 户 线程 访问 ,但 它 
处 于 核心 空间 下 ， 对 象 管理 器 为 每 个 NT 执行 体 对 
象 提供 一 个 句柄 。 当 一 个 线程 需要 一 个 新 的 NT 执 
行 体 对 象 时 ， 它 调用 对 象 管理 器 函数 来 创建 对 象 
(在 核心 空间 ) ， 并 创建 一 个 对 象 的 句柄 (在 进程 地 
址 空间 ) ， 然 后 将 句柄 返回 给 调用 线程 。 有 时 另外 i 
一 个 线程 也 想 要 使 用 已 经 被 创建 了 的 句柄 ， 当 这 个 ” 图 21.3 句柄 、NT 执行 体 对 象 和 NT 内 核对 象 
线程 试图 创建 已 经 存在 的 对 象 时 ， 对 象 管理 器 会 注 注 : 该 图 复述 了 第 6 章 中 讨论 的 进程 和 线程 描述 表 
意 到 对 象 已 经 存在 了 ， 所 以 它 为 第 二 个 线程 再 创建 HAR, NT 执行 体 和 NT 内 核对 象 《和 它们 的 
一 个 句柄 来 访问 存在 的 NT 执行 体 对 象 。 这 两 个 线 句柄 ) 被 一 致 地 管理 。 
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程 共享 同一 个 对 象 ， 对 象 管理 器 会 保持 执行 体 对 象 的 访问 计数 。 当 所 有 的 句 栖 被 关闭 时 ， 执 行 体 对 象 才 被 
释放 。 这 意味 着 只 要 线程 不 再 需要 句柄 ， 应 该 关闭 打开 的 句柄 。、 

有 -组 对 象 管理 器 支持 的 预定 义 的 对 象 类 型 集 ( 见 实验 6.1)。 当 对 象 被 创建 时 ， 它 包含 一 个 对 象 头 
(对 象 管理 器 使 用 它 来 管理 对 象 ) 和 包含 具体 类 型 信息 的 对 象 体 。 这 个 头 包括 : 

mIRE: 允许 对 象 被 不 同 的 进程 访问 。 

B 安全 描述 符 : 访问 许可 。 

打开 句柄 信息 : 哪个 进程 使 用 对 象 的 详细 信息 。 

对 象 类 型 :对 象 类 定义 的 细节 信息 。 

里 访问 计数 : 访问 对 象 的 句柄 数目 。 

头 中 的 信息 由 NT 执行 体 对 象 管理 器 来 管理 ， 例 如 ， 当 创建 了 对 象 的 一 个 新 的 句柄 时 ， 执 行 体 对 象 管 
理 器 会 更 新 打开 句柄 信息 和 访问 计数 。 对 象 类 型 信息 定义 了 对 象 实现 的 一 组 标准 方法 集 (通过 NT 执行 体 
对 象 )， 如 open () close () 和 delete ()。 其 中 有 些 方法 是 由 NT 执行 体 对 象 管理 器 提供 ， 有 些 是 对 象 
类 型 特定 的 。 然 而 ， 接 口 为 对 象 头 的 一 部 分 。 对 象 体格 式 由 使 用 对 象 的 执行 体 组 件 来 确定 。 例 如 ， 如 果 执 
行 体 对 象 是 一 个 文件 对 象 ， 则 体格 式 和 内 容 由 1/O 管理 器 的 文件 管理 器 部 分 来 管理 。 


21.3.2 进程 和 线程 管理 器 


在 NT 执行 体 中 ，NT 执行 体 进程 管理 器 的 功能 和 任何 操作 系统 中 进程 管理 器 的 功能 是 相同 的 ， 它 是 
操作 系统 的 重要 成 分 ， 负 责 : 

E 创建 和 结束 进程 和 线程 。 

m 监视 资源 的 分 配 。 

a 提供 同步 原 语 。 

E 控制 进程 和 线程 状态 的 改变 。 

E 保存 大 多 数 的 信息 踪迹 ， 让 操作 系统 可 以 了 解 每 个 进程 和 线程 。 
简单 地 说 ， 它 管理 线程 和 进程 的 所 有 方方面面 。 

进程 管理 器 实现 了 将 在 子 系统 和 应 用 级 ”用 户 空间 
使 用 的 进程 抽象 。 实 现 这 个 抽象 意味 着 进程 
管理 器 定义 了 大 量 的 数据 结构 来 保持 每 个 进 
程 和 线程 的 状态 ( 见 图 21-4， 黑 线 表 示 指 
针 ， 灰 线 表 示 访 问 数据 结构 内 容 的 代码 )。 
这 些 组 件 在 6.4 节 和 6.5 节 进 行 了 讨论 。 EPROCESS 

NTOSKRNL 中 PA 数 NtCreateProcess ( ) 
用 来 创建 一 个 进程 ， 也 就 是 说 ，Win32 API 
CreateProcess ( ) 调用 NtCreateProcess 
()。 当 NtCreateProcess () 被 调用 时 GH 
常情 况 下 被 CreateProcess () WA), CÑ 





过 下 面 的 步骤 来 建立 进程 : 
m 调用 NT 内 核 来 创建 内 核 进程 对 象 。 
m 创建 和 初始 化 EPROCESS 块 。 图 21-4 进程 和 线程 描述 表 
ws 为 进程 创建 地 址 空间 注 :进程 和 线程 描述 表 可 通过 EPROCESS 数据 结构 来 访问 ， 
进程 不 能 执行 其 地 址 空间 内 的 代码 ， 而 并 且 由 NT 内 核 和 NT 执行 体 来 处 理 。 


且 进 程 必须 至 少 有 一 个 线程 ( 称 为 基线 程 ) 来 执行 代码 。NT 执行 体 函数 NtCreateThread () 会 创建 一 个 
可 以 在 进程 内 执行 的 线程 。 (Win32 API CreateProcess () 函数 调用 NtCreateProcess () 和 NtCre- 
ateThread (), CreateThread () 函数 调用 NtCreateThread () 来 在 进程 内 创建 另外 的 线程 。) Ntcre- 
ateThread () 执行 下 面 的 步 又: 

e 调用 NT 内 核 来 创建 内 核 线程 对 象 。 
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m 创建 和 初始 化 一 个 ETHREAD 块 。 
中 初始 化 线程 (建立 栈 ， 为 它 提供 可 执行 的 起 始 地 址 等 )。 
m 将 线程 放 人 调度 队列 中 。 


21.3.3 虚拟 存储 管理 器 


12.5 节 中 对 Windows NT/2000 虚拟 存储 系统 进行 了 介绍 ， 这 是 一 种 页 式 虚拟 存储 系统 。 当 一 个 进程 
被 创建 时 ， 它 分 配 有 4GB 的 虚拟 地 址 ， 尽 管 在 此 时 并 没有 实际 上 分 配 空间 。 当 进程 需要 空间 时 ， 它 首先 
BMA (reserve) 与 所 需要 的 空间 一 样 大 的 地 址 空间 ， 预 约 并 不 会 引起 任何 实际 空间 被 分 配给 进程 ， 只 是 
为 随后 使 用 而 预约 。 当 进程 需要 使 用 虚拟 地 址 来 存储 信息 时 ， 它 就 提交 (conimit) 地 址 空间 ， 意味 着 系统 
存储 空间 会 被 分 配给 进程 来 保存 信息 。 通 常情 况 下 ， 提 交 操 作 会 引起 磁盘 上 的 空间 (在 进程 的 页 文件 中 ) 
被 分 配给 进程 ， 信 息 被 存储 在 磁盘 上 直到 它 被 一 个 线程 实际 访问 。 

像 所 有 的 页 式 虚 拟 存储 机 制 一 样 ， 当 一 个 正在 执行 的 线程 访问 一 个 虚拟 地 址 时 ， 虚 拟 存 储 管 理 器 要 保 
证 从 页 文件 中 读 取 包含 虚拟 地 址 的 页 ， 并且 放 置 到 可 执行 物理 存储 器 中 某 个 系统 定义 的 位 置 。 虚 拟 存储 管 
理 器 将 线程 所 访问 的 地 址 映射 到 加 载 信息 的 物理 主 存 地 址 上 。 

虚拟 存储 管理 器 被 设计 成 将 每 个 进程 地 址 空间 的 一 a ow 的 不 同 配置 会 使 用 
不 同 的 空间 量 ) 映射 到 进程 在 管理 模式 运行 时 系统 所 用 的 信息 ，( 见 图 21-5)。 这 样 决 策 的 重要 意义 有 如 下 
几 个 : 

E 一 个 进程 可 以 直接 访问 (但 不 是 必须 访问 ) 系统 空间 中 的 每 个 位 置 。 

n 每 个 进程 共享 系统 空间 的 相同 视图 。 

量 这 种 大 的 、 共 享 的 虚拟 地 址 空间 使 得 存储 映射 文件 是 可 行 的 。 

在 图 21-5 中 ， 当 一 个 线程 访问 用 户 空间 中 的 一 个 地 址 时 ， 虚 拟 存 储 系统 在 地 址 内 容 被 使 用 之 前 ， 加 
载 目标 内 容 到 物理 主 存 中 ， 因 而 线程 可 以 通过 访问 一 个 物理 主 存 地 址 来 读 、 写 虚拟 地 址 。 在 操作 系统 进行 
存储 访问 时 进行 同样 的 映射 过 程 ， 尽 管 这 些 访 问 是 受 保 护 的 ， 并 且 每 个 进程 的 操作 系统 地 址 映射 到 操作 系 
统 所 在 主 存储 器 中 。 


用 户 空间 存储 访问 OS 存 储 访问 
虚 地 址 空间 





虚 地 址 空间 地 址 





地 址 访问 
一 > 地 址 映射 





物理 存储 器 页 帧 


图 21-5 虚拟 存储 器 、 
注 : 地 址 空间 中 操作 系统 部 分 和 用 户 部 分 中 的 虚拟 地 址 都 被 映射 到 物理 主 存 地 址 ， 当 访问 一 个 未 加 载 的 页 时 ， 对 
虚拟 地 址 的 访问 会 使 得 虚拟 存储 系统 从 页 文件 中 加 载 所 缺 页 。 


21.3.4 1/O 管理 器 


LO 管理 器 负责 处 理 对 系统 中 每 个 设备 的 所 有 输入 /输出 操作 。 它 的 操作 可 能 是 相当 复杂 的 [Solomon 
and Russinovich, 2000]. 
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8 1/0 管理 器 创建 一 种 对 系统 中 所 有 设备 的 LIMO 操作 的 抽象 ， 因 而 系统 的 客户 可 以 在 一 个 公共 的 数据 
结构 上 实施 操作 。 

、 量 客户 可 以 执行 同步 和 异步 I/O。 

n 当 需 要 时 ， 客 户 就 可 以 激活 安全 访问 监控 程序 。 

8 1/ 〇 管理 器 必须 容纳 由 第 三 方 使 用 高 级 语言 所 编写 的 设备 驱动 程序 。 这 些 驱 动 程序 必须 能 够 在 核心 
模式 中 执行 。 设 备 驱 动 程序 的 安装 和 和 印 载 必须 是 动态 的 。 

里 I/ 〇 管理 器 可 以 容纳 系统 磁盘 上 可 替代 的 文件 系统 。 这 意味 着 一 些 文件 系统 可 能 使 用 MS-DOS 格 
sh, 其 他 的 可 能 使 用 一 种 工业 化 标准 的 CD-ROM 格式 ， 还 有 的 可 能 使 用 Windows 2000 自己 的 文件 
系统 (NTFS)。 

m 1/ 〇 管理 器 的 扩展 一 一 设备 驱动 程序 或 文件 系统 ， 或 者 两 者 ， 必 须 与 在 虚拟 存储 器 中 所 实现 的 存储 
映射 文件 机 制 相 一 致 ， 因 而 扩展 设计 受 管理 器 所 提供 的 功能 限制 。 

1/0 管理 器 是 由 下 列 部 分 所 组 成 的 ， 如 图 21-6 所 示 [Nagar, 1997]. 

m 设备 驱动 程序 在 最 低 的 层次 。 它 们 操纵 物理 ORE. 

加 中 间 的 驱动 程序 是 软件 模块 ， 它 利用 低级 的 设备 驱动 程序 进行 工作 ， 提 供 增强 的 服务 。 例 如 ， 当 一 
个 低级 的 设备 驱动 程序 检测 到 一 个 错误 条 件 时 ， 它 可 能 只 简单 地 “向 上 ”传递 该 错误 ; 而 一 个 中 间 
的 驱动 程序 可 能 接收 到 错误 ， 并 且 决 定向 更 低级 的 驱动 程序 发 出 一 个 重 试 操作 。 

E 文件 系统 驱动 程序 扩展 了 低级 驱动 程序 (如 中 间 的 和 设备 驱动 程序 ) 的 功能 来 实现 目标 文件 系统 。 

D 过 滤器 驱动 程序 可 以 插 和 人 到 设备 驱动 程序 与 中 间 驱 动 程序 之 间 ， 中 间 驱 动 程序 与 文件 系统 驱动 程序 
之 间 ， 或 者 文件 系统 驱动 程序 与 IO 管理 器 的 API 之 间 ， 来 完成 可 能 被 要 求 的 任意 功能 。 例 如 ， 一 
个 网 络 重 定向 过 滤器 驱动 程序 ， 可 以 截取 远程 文件 的 文件 命令 ， 并 且 可 以 重 定 向 到 远程 文件 服务 
器 。 

驱动 程序 是 独立 部 件 ， 它 可 以 被 增加 到 NT 执行 体 在 核心 态 中 运行 。 操 作 系 统 并 没有 支持 除了 驱动 程 

序 之 外 的 第 三 方 软件 来 增加 核心 态 的 功能 。 
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图 21-6 ”I/O 管理 器 


È: LO 管理 器 有 很 多 功能 层 ， 在 需要 时 每 一 层 都 可 以 配置 到 一 个 1/ 〇 流 中 。 通 常会 使 用 HAL 和 设备 驱动 程序 ， 
还 可 能 使 用 文件 系统 驱动 程序 。 其 他 的 层 在 需要 时 配置 。 


Windows NT/2000/XP 的 1/O 管理 器 定义 了 结构 框架 ， 其 中 设备 驱动 程序 、 中 间 驱 动 程序 、 文 件 系统 
驱动 程序 以 及 过 滤器 驱动 程序 ， 都 是 动态 地 被 增加 到 系统 或 者 从 系统 中 外 载 的 ， 并 且 它 们 可 以 在 一 起 共同 
工作 。API 与 设备 之 间 模 块 流 的 思想 首先 在 AT&T 的 System V UNIX 的 1/0 系统 中 被 使 用 [Ritchie， 
1984]。 动 态 流 的 设计 使 得 配置 复杂 的 O 系统 变 得 容易 了 。System V 中 的 流 是 网 络 协议 实现 的 基础 。 

同样 类 似 于 System V 流 ，I/O 管理 器 通过 向 流 中 发 出 ORRE (1/0 request packets, 以 下 简称 IRP) 
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来 指导 模块 运行 。 如 果 IRP 意 指 一 个 特定 的 模块 ， 那 么 该 模块 会 响应 IRP; 否则 , 它 传递 IRP 到 流 中 的 下 一 
个 模块 。 流 中 的 每 个 驱动 程序 都 有 接收 IRP 的 责任 ， 如 果 IRP 是 直接 发 给 驱动 程序 的 ， 那 么 它 要 对 下 P 进行 
响应 ; 如 果 不 是 则 将 IRP 传递 到 下 一 个 模块 中 。 

所 有 对 设备 读 、 写 的 信息 ， 都 作为 虚拟 文件 的 字 节 流 来 被 管理 。 每 个 驱动 程序 都 可 以 读 、 写 虚拟 文 
件 。 低 级 设备 驱动 程序 将 从 设备 中 读 取 的 信息 转换 成 一 个 流 ， 并 且 在 写 信 息 之 前 将 流 信 息 转换 为 一 种 设备 
相关 的 格式 。 


21.3.5 高 速 缓存 管理 器 


应 用 性 能 的 主要 瓶颈 是 必须 等 候 物 理 设备 处 理 IO 命令 的 时 间 ， 当 处 理 器 越 来 越 快 时 ， 等 候 设备 完成 
I/O 操作 的 这 部 分 时 间 在 总 的 运行 时 间 中 占 的 比重 日 益 增加 。 如 我 们 所 看 到 的 ， 这 个 问题 的 经 典 解决 方法 
是 让 线程 和 它 的 设备 IMO 操作 并 发 执行 ， 这 意味 着 线程 要 可 以 预测 它 将 需要 的 信息 ， 它 会 预先 发 出 一 个 使 
用 数据 的 MO 请 求 ， 然 后 并 发 地 处 理 已 经 读 取 的 信息 和 新 的 1/0 请 求 。 

高 速 缓存 管理 器 与 虚拟 存储 管理 器 和 O 管理 器 一 起 工作 ， 执 行 对 虚拟 文件 的 预 读 和 延迟 写 。 这 是 一 
种 典型 的 操作 系统 处 理 思想 : 因为 文件 通常 是 顺序 访问 的 ， 当 一 个 线程 读 字 节 ;， 可 能 不 久 就 要 读 字 节 
i+1。 因 此 ， 采 用 预 读 策略 ， 当 线程 请 求 从 设备 读 取 字 节 i 时 ， 高 速 缓存 管理 器 会 请 求 虚 拟 存储 管理 器 准 
备 一 个 缓冲 来 容纳 虚拟 文件 的 K+1 个 字 节 ， 然 后 它 指示 1/O 〇 管理 器 将 字 节 i 和 下 面 的 K 字 节 读 人 缓冲 区 
中 。 然 后 ， 当 线程 请 求 字 节 ;+ 1，i + 2，..，i+ K 时 ， 由 于 它们 已 经 被 读 取 ， 线 程 就 不 再 需要 等 候 设备 
操作 完成 。 延 迟 写 策略 的 工作 方式 是 相似 的 。 

大 多 数 的 高 速 缓存 管理 器 的 操作 对 NTOSKRNL API 而 言 是 透明 的 ，Win32 API 仅 有 四 个 属性 来 影响 高 速 
缓存 管理 器 的 操作 ， 这 些 信息 是 必 不 可 少 的 ， 向 高 速 缓存 管理 器 保证 线程 将 顺序 访问 文件 中 的 信息 。( 当 
进程 调用 CreateFile () 时 ， 可 以 设置 这 些 属性 。) 高 速 缓存 管理 器 的 主要 客户 是 可 以 增加 到 1/0 管理 器 
中 的 驱动 程序 ， 这 些 模块 可 以 定制 文件 系统 ， 可 以 使 用 管理 器 提供 的 文件 缓存 设施 。 

有 了 文件 缓存 ， 文 件 管理 器 可 在 输入 文件 时 预 读 ， 使 得 缓冲 区 包含 应 用 要 读 的 下 一 个 字 节 ， 这 样 就 可 
以 完成 处 理 机 与 IMO 交 迁 执行 。 输 出 文件 缓冲 区 可 以 让 文件 管理 器 进行 延迟 写 来 实现 应 用 的 写 操作 。 当 应 
用 逻辑 上 将 字 节 写 到 文件 时 ， 系 统 会 将 字 节 存储 在 缓冲 区 中 。 当 缓冲 区 是 满 的 并 且 输出 设备 是 空闲 时 ， 系 
统 会 将 缓冲 区 写 到 设备 。 当 输出 被 缓冲 时 ， 有 另 一 个 机 会 进行 快速 文件 MO; 假定 一 个 进程 在 对 文件 进行 
写 ， 而 另 一 个 并 发 执行 的 进程 正在 从 文件 读 。 如 果 数 据 消费 者 正在 读 取 文件 时 ， 而 数据 生产 者 正在 同一 位 
置 写 数据 ， 则 在 输出 缓冲 被 写 到 设备 之 前 ， 消 费 者 的 读 操作 可 以 从 输出 缓冲 中 读 取 数据 。 因 为 想 要 的 数据 
已 经 在 系统 缓冲 中 了 ， 所 以 读 操作 不 会 导致 任何 的 物理 1/0 操作 。 

高 速 缓 存 管理 器 负责 管理 文件 缓存 策略 ， 通 过 了 解 高 速 缓存 管理 器 必须 执行 的 工作 ， 很 明显 它 常 与 I/ 
〇 管理 器 进行 交互 来 协调 缓存 管理 。 高 速 缓存 管理 器 必须 处 理 多 个 地 址 空间 和 缓冲 区 ， 这 意味 着 如 果 它 与 
虚拟 存储 管理 器 协调 好 的 话 ， 它 会 变 得 更 有 效 。 

当 NTOSKRNL 启动 时 ， 高 速 缓存 管理 器 预 留 系统 虚拟 地 址 空间 的 一 块 区 域 。 因 为 这 部 分 空间 是 每 个 进 
程 地 址 空间 的 一 部 分 ， 高速 绥 存 管理 器 的 预 留 区 域 对 系统 中 的 每 个 进程 是 可 访问 的 (用 适当 的 特权 )。 像 
所 有 的 虚拟 存储 一 样 ， 在 高 速 缓存 管理 器 的 空间 被 提交 (committed) 之 后 ， 要 到 虚拟 存储 管理 器 分 配 了 主 
存 中 的 页 之 后 才 加 载 。 如 果 系 统 是 轻 负 荷 的 ， 高 速 缓存 管理 器 会 增加 它 的 工作 和 集 的 尺寸 并 趋 于 分 配 更 多 的 
主 存 页 帧 。 相 反 ， 重 负荷 的 系统 会 使 得 高 速 缓存 管理 器 的 工作 和 集 减少 ， 使 得 主 存 可 被 其 他 的 进程 使 用 。 

文件 缓存 建立 在 内 核 的 存储 映射 文件 机 制 之 上 A 12.7 节 )。 文 件 系统 驱动 程序 开始 在 文件 字 节 流 上 
操作 时 ， 它 会 在 高 速 缓存 管理 器 上 进行 函数 调用 。 高 速 缓存 管理 器 通过 创建 一 个 段 对 象 将 文件 映射 到 它 的 
虚拟 地 址 空间 中 〈 进 而 映射 到 主 存 中 的 页 )。 高 速 缓存 管理 器 然后 动态 地 将 文件 区 段 映 射 到 其 地 址 空间 中 
来 实现 缓冲 。 

Nagar [Ch. 6, 1997] 提供 了 缓存 读 写 操作 步骤 的 细节 描述 ( 见 图 21-7)。Nagar 对 读 操 作 的 描述 概括 
WF: ` 

1) 用 户 空 间 线程 用 读 请 求 来 调用 1/ 〇 管理 器 ， 为 存放 读 结果 传递 一 个 缓冲 区 地 址 。I/O 管理 器 对 于 如 
何 处 理 用 户 空间 缓冲 有 不 同 的 选项 ， 例 如 ， 它 可 以 将 用 户 缓冲 区 映射 到 系统 空间 中 ， 或 将 用 户 缓冲 区 地 址 
传递 到 文件 系统 驱动 程序 上 。 








Windows NT’2000/XP Atè 521 





2) 然后 I/O 管理 器 用 IRP 来 调用 文件 系 
统 驱 动 程序 ， 文 件 系统 驱动 程序 检测 到 这 是 
缓冲 选项 使 能 的 文件 读 操 作 ， 第 一 举 读 操作 
会 使 得 文件 系统 驱动 程序 启动 高 速 缓存 管理 
器 ， 然 后 高 速 缓存 管理 器 创建 一 个 段 对 象 来 
映射 缓冲 信息 。 

3) 文件 系统 驱动 程序 会 用 CoCopyRead 请 
求 来 调用 高 速 缓存 管理 器 ， 高 速 缓存 管理 器 
创建 文件 区 段 的 映射 (如 果 不 存在 的 话 )， 然 
后 启动 一 个 从 区 段 映射 到 用 户 缓冲 区 的 存储 
拷贝 。 

4) 如 果 要 读 取 的 信息 仍然 在 磁盘 上 ， 使 
用 虚拟 地 址 来 访问 它 会 引起 缺 页 异常 ， 虚 拟 
存储 管理 器 会 分 配 物 理 页 保存 将 要 从 磁盘 上 
读 的 信息 ， 然 后 给 文件 系统 驱动 程序 发 送 一 
个 非 缓冲 页 读 命令 。 

5) 文件 系统 驱动 程序 在 包含 文件 的 设备 
驱动 程序 上 初始 化 一 个 读 操作 。 

6) 设备 驱动 程序 向 物理 磁盘 发 出 一 个 读 图 21-7 缓存 读 操作 





操作 。 TE: 高 速 缓存 管理 器 被 设计 用 于 处 理 I/O 缓冲 ， 读 操作 
7) 设备 执行 物理 页 读 操作 。 的 步 又 在 文中 进行 了 描述 。 
8) 设备 完成 并 引起 中 断 ， 启 动 中 断 驱动 

程序 运行 。 


9) 中 断 处 理 程序 从 读 页 操作 中 返回 到 文件 系统 驱动 程序 。 

10) 文件 系统 驱动 程序 通知 虚拟 存储 管理 器 ， 页 已 经 被 加 载 到 主 存 中 。 

11) 这 条 指令 会 使 得 缺 页 异常 重新 执行 ， 允 许 高 速 缓存 管理 器 将 数据 从 文件 映像 移 到 用 户 空间 中 。 
12) 高 速 缓存 管 理 器 会 将 用 户 缓冲 中 的 数据 返回 到 文件 系统 驱动 程序 中 。 

13) 文件 系统 驱动 程序 从 IRP 返回 到 IMO 管理 器 。 

14) 1/0 管理 器 从 用 户 读 操 作 返 回 。 


21.4 ”内核 本 地 过 程 调用 和 IPC 


同一 进程 内 的 线程 使 用 相同 的 地 址 空间 ， 所 以 它们 之 间 很 容易 共享 信息 。 一 个 进程 内 的 线程 可 以 通过 
内 核对 象 来 发 信号 给 另 一 个 进程 内 的 线程 ， 然 而 ， 当 不 同 进程 内 的 两 个 线程 希望 交换 数据 时 ， 必 须要 使 用 
一 个 完全 的 新 机 制 。 | 

在 执行 体 中 ， 有 一 个 专门 的 IPC 机 制 (不 能 通过 Win32 API 使 用 )。 本 地 过 程 调用 (Local Procedure 
Call, LPC) 机 制 建立 在 内 核 端口 对 象 之 上 ， 它 可 被 客户 和 服务 器 进程 用 来 在 NT 执行 体 和 子 系统 间 进 行 高 
速 信息 交换 。 例 如 ，LPC 可 以 用 在 本 地 安全 授权 服务 器 和 安全 访问 监控 程序 间 进 行进 程 间 通信 。 

关于 LPC 的 信息 不 太 多 ，Solomon 和 Russinovich [2000] 报告 说 LPC 是 一 个 基于 连接 的 IPC 机 制 ， 希 
望 使 用 LPC 的 进程 必须 创建 一 个 端口 对 象 来 管理 通信 。 客 户 进程 发 出 一 个 到 服务 器 连接 端口 的 连接 请 求 ， 
如 果 请 求 被 接受 ， 则 会 创建 一 个 服务 器 通信 端口 和 客户 通信 端口 ， 它 们 逻辑 上 彼此 是 互 连 的 。 这 个 端口 对 
用 于 两 个 进程 间 的 高 速 通信 。 

LPC 为 不 同 地 址 空间 内 的 两 个 线程 提供 了 一 种 高 速 交 换 信息 的 方式 ， 可 使 用 逻辑 连接 将 信息 块 从 一 个 
地 址 空间 传送 到 另 一 个 地 址 空间 。“ 过 程 调用 ”机 制 使 用 “过 程 调用 语义 ”进行 信息 传输 。 意 味 着 由 发 送 
者 初始 化 数据 传输 然后 等 待 数据 被 远程 处 理 完成 ， 这 类 似 于 调用 过 程 时 ， 调 用 者 初始 化 调用 然后 等 待 它 完 
成 的 语义 。 

Win32 子 系统 提供 了 另 一 种 IPC 机 制 ， 它 专门 用 于 基于 图 形 化 窗口 的 应 用 ,但 是 不 依赖 于 NT 执行 体 
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(Richter, 1997]. MAHI NT 执行 体 线程 创建 时 不 能 使 用 Windows 消息 传递 机 制 。 然 而 ， 当 线程 调用 User 
或 GDI 函数 时 ， 系 统 会 假定 应 用 在 全 图 形 窗口 环境 下 运行 ， 所 以 增加 必要 的 数据 结构 来 支持 Windows 消 
息 。( 这 意味 着 作为 控制 台 运 行 的 线程 不 能 使 用 Windows 窗口 消息 系统 。) 

增加 的 数据 结构 (PKA THRERDINFO 结构 ) 包括 : 

投递 消息 队列 

m 虚拟 输入 队列 

E 发 送 消息 队列 

B 回复 消息 队列 

m 其 他 的 标志 和 状态 变量 

消息 被 导向 到 一 个 窗口 ， 而 不 是 窗口 中 一 个 具体 的 线程 〈 创 建 窗口 的 线程 将 接收 消息 )。 当 消息 被 接 
收 时 ， 它 被 添加 到 四 个 队列 中 的 一 个 ， 选择 哪个 队列 取决 于 发 送 消 息 的 Win32 函数 。 例 如 ，PostMessage 
() 和 PostThreadMessage () 函数 将 一 个 消息 加 入 到 投递 消息 队列 中 。 当 一 个 线程 投递 一 个 消息 时 ， 在 消 
息 被 添加 到 队列 后 会 立即 返回 。SendMessage ()》 是 一 个 完全 的 同步 消息 ， 当 发 送 者 调用 SendMessage () 
时 ， 函 数 会 将 消息 添加 到 发 送 消息 队列 ， 直 到 窗口 线程 得 到 消息 之 后 才 返 回 。PostMessage () 用 来 发 送 消 
息 并 能 异步 地 连续 处 理 ， 也 就 是 说 ， 不 用 等 待 消 息 被 接收 者 处 理 。SendMessage () 同步 发 送 者 和 接收 者 的 
活动 ， 因 为 发 送 者 要 等 待 接 收 者 处 理 消息 之 后 才能 继续 执行 。(SendMessageTimeout () 设置 发 送 者 愿意 等 
候 接收 者 对 消息 反应 的 最 大 时 间 量 。) ReplyMessage () 函数 将 消息 置 人 应 答 消息 队列 中 。 这 个 设施 被 用 于 
下 面 的 情形 中 : 当 发 送 者 请 求 非常 费时 的 服务 时 ， 接 收 者 会 发 出 一 个 ReplyMessage () 来 告诉 发 送 者 当前 
正在 处 理 请 求 。 

Windows 消息 系统 有 一 个 非常 先进 的 接收 机 制 ， 使 用 了 一 个 事件 驱动 的 程序 设计 模型 ， 所 有 的 消息 都 
有 注册 类 型 ， 许 多 类 型 可 被 Windows 系统 中 的 代码 识别 和 处 理 。 当 消息 到 达 其 中 的 一 个 队列 时 ， 它 被 交付 
并 被 创建 窗口 的 线程 所 处 理 ， 而 无 须 应 用 程序 员 编 写 任何 的 额外 代码 来 处 理 。Windows 消息 系统 是 强大 的 
面向 应 用 的 IPC 机 制 ， 但 是 它 整个 构建 在 Win32 FRAP 〈 它 是 中 间 层 ) ， 而 且 逻 辑 上 独立 于 底层 的 操作 
系统 机 制 。 


本 地 的 API 


尽管 NT 执行 体 和 内 核 是 作为 单独 的 模块 来 设计 和 编程 的 ， 但 是 当 构建 Windows NT/2000/XP 内 核 
时 ， 它 们 是 结合 在 一 起 的 。 结 合 的 NT 执行 体 和 NT 内 核 模块 (和 底层 的 HAL) 实现 了 全 部 的 操作 系统 。 
内 核 导 出 了 大 约 240 个 函数 [Russinovich，1998]， 大 多 数 没有 文档 措 述 ， 子 系统 开发 商 仅 可 使 用 这 些 函 数 
来 开发 它们 的 软件 。 


21.5 FRR 


Windows 2000 的 系统 软件 被 构造 成 层次 体系 结构 。 层 次 i 使 用 由 层次 i -1 (在 层次 i -1 的 接口 ) 所 
提供 的 服务 构造 ， 同 时 创建 它 自己 的 服务 ， 并 且 通 过 它 自己 (层次 i) 的 接口 导出 这 些 服务 。 在 Windows 
体系 结构 中 ， 子 系统 在 原始 AP 之 上 提供 了 另 一 层 服务 。 随 着 功能 被 增加 到 计算 机 系统 ， 可 以 有 很 多 不 同 
的 子 系统 ， 有 一 些 是 相关 的 , 但 其 他 的 相互 独立 。 例 如 ， 一 个 典型 的 Windows NT/2000/XP 系统 包括 如 下 
的 子 系统 : 

E Win32 FRR. 

E Winlogon 服务 ( 当 用 户 开始 使 用 系统 时 ， 使 用 LSA 服务 器 以 及 在 NT 执行 体 部 分 中 所 描述 的 安全 

访问 监控 程序 来 认证 他 们 )。 

看 一 个 远程 过 程 调 用 服务 。 

每 个 子 系统 都 使 用 原始 的 APl 来 实现 它 所 提供 的 服务 。 环 境 子 系统 的 行为 如 同 -- 个 传统 的 内 部 层次 一 
样 。 在 层次 体系 结构 方法 中 ， 它 们 使 用 了 原始 API 来 增加 功能 和 服务 ， 并 且 导 出 它们 自己 的 API。 在 微软 
的 策略 中 ， 子 系统 API 是 文档 化 的 API， 意 味 着 程序 员 可 以 在 一 个 较 高 的 层次 上 来 编写 新 软件 ， 并 和 且 保 证 
当 体 系 结构 中 的 低层 被 改变 时 ，API 将 不 会 改变 。 
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图 21-8 显示 了 Windows 中 的 层次 结构 ，Win32 子 系统 提供 了 一 个 文档 化 的 接口 即 Win32 API， 大 约 有 
2000 PER, PIAN Wing? API 是 一 个 六 消化 的 接口， 应 用 各 
In. 


可 以 在 Win32 子 系统 之 上 编写 软件 ， 调 用 API 函数 来 完成 某 个 特 
Win32 


定 的 应 用 任务 。 


Windows XP . NET 不同 于 基于 Win32 的 Windows NT/2000/ 
XP， 因 为 它 导 出 了 一 个 更 广泛 的 .NET 函数 集 ， 而 不 是 Win32 

NT 执行 体 
和 NT 内 核 






API。Windows 操作 系统 在 商业 上 的 趋势 是 鼓励 程序 员 使 用 .NET 
接口 ， 而 不 是 Win32 API. 
Win32 子 系统 也 提供 了 一 种 其 他 类 型 的 服务 : 它 实现 了 一 个 用 







户 接口 管理 系统 ， 因 为 NT 执行 体 或 NT 内 核 都 没有 这 些 功 能 。 这 图 21-8 Win32 API 
是 实际 中 的 主要 问题 一 一 当 系 统 开 始 运 行 时 ， 系 统 软件 中 的 某 个 注 : Win32 API 是 Win32 子 系统 
部 分 需要 读 取 键盘 和 鼠标， 并 且 管 理 显示 嚣 ， 而 不 是 让 每 个 环境 的 一 个 接口 ， 微 软 并 没有 发 
子 系统 都 提供 它 自己 的 用 户 接口 。Win32 子 系统 为 所 有 的 子 系统 实 布 原始 的 NT API (除了 给 子 
现 了 公共 的 窗口 管理 器 ， 这 意味 着 在 Win 32 子 系统 中 实现 人 、 机 系统 开发 商 ), 但 是 鼓励 
交互 模型 ， 但 它 可 以 被 所 有 的 其 他 子 系统 所 使 用 。 Win32 API 的 使 用 。 这 有 助 
子 系统 的 设计 可 以 是 简单 的 或 复杂 的 。 在 最 简单 的 情形 中 ， 于 不 同 版 本 的 Windows 间 的 
子 系统 所 导出 的 每 个 功能 或 服务 都 完全 是 在 子 系统 内 实现 的 。 例 应 用 程序 的 可 移植 性 。 


如 ， 子 系统 可 能 保存 有 一 个 数据 结构 ， 其 中 填充 有 子 系统 从 原始 API 所 获得 信息 中 抽取 的 信息 。 当 一 个 程 
序 查 询 子 系统 时 ， 它 只 简单 地 从 数据 结构 中 读 取 数据 并 返回 结果 ， 而 无 需 与 操作 系统 进行 交互 。 

当 一 个 子 系统 函数 实现 要 通过 原始 API 与 操作 系统 进行 交互 时 ， 情 况 稍微 复杂 一 些 。 例 如 ，Win32 的 
功能 函数 CreateProcess () 引起 Win32 子 系统 去 调用 原始 API 的 功能 函数 NtCreateProcess () 以 及 
NtCreateThread ()。 


21.6 小 结 


Windows NT/2000/XP 操作 系统 是 最 流行 的 操作 系统 ， 它 使 用 了 层次 化 的 设计 ， 由 HAL. NT AK, 
NT 执行 体 以 及 子 系统 (特别 是 Win32 子 系统 ) 组 成 。HAL 的 设计 使 得 更 容易 将 操作 系统 从 一 个 硬件 平台 
移 到 另 一 个 硬件 平台 上 。NT 内 核实 现 了 一 组 与 微 内 核 相 关 的 低层 函数 : 中 断 管理 、 线 程 调度 、 对 象 存储 
等 。NT 执行 体 使 用 NT 内 核 工 具 来 实现 传统 的 进程 、 存 储 器 、 文 件 和 设备 管理 设施 。 





absolute loader (绝对 装配 器 ) : 参照 loader。 

absolute program (绝对 程序 ) : 程序 的 一 种 形式 ， 它 是 由 链接 编辑 器 将 可 重 定位 的 目标 模块 和 库 程 序 结合 
而 生成 的 。 绝 对 程序 中 包含 了 程序 中 所 有 目标 代码 的 描述 ， 在 执行 之 前 它 通常 会 由 绝对 装配 器 翻译 转换 
成 一 种 新 的 形式 。 

abstract data type (抽象 数据 类 型 ) :一 个 模块 ， 封 装 了 用 来 操作 存储 器 和 公有 接口 的 存储 和 私有 过 程 ， 它 
包含 了 过 程 和 类 型 声明 ， 可 用 来 操作 存储 设备 上 的 信息 。 

abstract machine (虚拟 机 ): 一 种 设计 概念 ， 由 操作 系统 而 不 是 底层 的 物理 硬件 实现 的 程序 设计 模型 。 也 

. 就 是 说 ， 操 作 系 统 为 程序 员 提供 了 硬件 的 仿真 。 也 称 为 virtual machine, 

abstract resource (抽象 资源 ): 并 不 必要 与 任何 硬件 组 件 相 关联 的 系统 资源 ， 但 是 是 用 软件 来 实现 的 ， 文 
件 就 是 一 种 抽象 资源 。 

access control list (访问 控制 列表 ): 所 有 主体 的 列表 以 及 保护 域 中 对 象 保持 的 访问 权限 。 

access functions (访问 函数 ) : 参照 file access functions. 

access matrix (访问 矩阵 ) : 在 保护 模型 下 ， 访 问 和 矩阵 为 每 个 保护 主体 提供 了 一 行 ， 为 每 个 保护 对 象 提 供 了 
一 列 。 和 矩阵 中 的 每 个 条 目 包 含 了 相应 的 主体 对 相应 的 对 象 的 访问 权限 。 访 问答 阵 表 示 了 系统 保护 状态 。 

access rights (访问 权限 ) : 参照 protection rights. 

ACL: 参照 access control list。 

address binding (WHERE): 将 程序 使 用 的 地 址 与 主 存 中 物理 存储 位 置 关联 的 过 程 。 

address bus (地 址 总 线 ): 系统 总 线 的 一 部 分 ， 在 系统 硬件 组 件 间 传送 地 址 ， 参 照 bus。 

address space (地 址 空间 ) : 可 被 进程 内 执行 的 线程 访问 的 机 器 组 件 (主要 是 存储 器 地 址 ) 集合 。 

address translation (地 址 转换 ) : 参照 virtual address translation。 

ADT (抽象 数据 类 型 ) : BAA abstract data type. 

algorithm (算法 ) : 完成 一 个 任务 的 顺序 指令 执行 规范 ， 例 如 ， 排 序 算法 可 以 按 升序 或 降序 对 数组 中 的 元 
素 进行 排序 。 

ALU (arithmetical-logic unit， 算 术 人 逻辑 运算 单元 ) : 运行 所 有 算术 与 逻辑 指令 的 单元 。 

AND synchronization (AND 同步 ) : 应 用 于 两 个 或 多 个 信号 量 上 的 同步 操作 ， 调 用 进程 会 被 阻塞 直到 所 有 的 
信号 量 可 用 。 当 进程 在 信号 量 中 被 阻塞 时 ， 它 并 不 保持 任何 信和 号 量 。 

API (application programming interface， 应 用 编程 接口 ): 它 定义 了 软件 模块 〈 尤 其 是 系统 软件 模块 ) HR 
程 接口 。 在 数据 库 、 窗 口 系统 以 及 其 他 模块 的 API 中 描述 了 数据 的 类 型 和 函数 ， 通 过 使 用 它们 从 模块 中 
获取 服务 。 

anonymous pipe (无 名 管道 ) : 参照 pipe。 

applet: 可 以 被 下 载 到 远程 机 器 上 来 执行 一 个 特定 任务 的 软件 ， 这 个 术语 来 自 Java 程序 设计 环境 ，Java applet 
用 来 扩展 web 浏览 器 的 功能 。 见 18.4 节 。 

application domain (应 用 域 ) : 定义 了 一 类 特定 应 用 程序 的 信息 处 理 区 域 。 例 如 ， 清 算 帐 目 域 、 书 籍 出 版 域 
或 核反应 控制 域 。 

application software (应 用 软件 ) : 特定 于 一 个 问题 域 的 程序 ， 而 不 是 一 类 问题 域 。 例 如 ， 处 理 机 调度 程序 
是 一 类 ， 而 一 个 大 学 的 课表 安排 程序 是 一 个 特定 域 的 应 用 。 

application programming interface: 参照 API, 
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arithmetical-logic unit: 参照 ALU. 

associative memory (联想 存储 器 ) : 通过 使 用 键 值 而 不是 通过 明确 的 地 址 来 访问 的 存储 器 。 联想 存储 器 可 
用 于 实现 页 表 缓 冲 器 。 

asynchronous send (异步 发 送 ) : 一 种 IPC 传递 操作 ， 传 递 线程 /进程 将 信息 传递 给 接收 线程 /进程 〈 或 它 的 
操作 系统 ) ， 而 不 用 等 候 看 消息 是 否 被 发 送 了 。 

atomic operation (原子 操作 ) ; 见 indivisible operation. 

avoidance, deadlock ( 死 锁 避免 ) : 解决 死 锁 问题 的 一 种 策略 ， 当 资源 分 配器 决定 是 否 一 个 资源 请 求 需要 满 
足 时 ， 要 保证 有 可 行 的 执行 序 记 使 所 有 的 资源 请 求 得 到 满足 。 . 

authentication (认证 ): 指 的 是 确保 试图 访问 安全 实体 的 主体 就 是 它 所 声称 的 主体 的 任务 。 见 第 14 章 。 

authentication server (认证 服务 器 ) : 提供 了 认证 服务 的 网 络 服务 机 制 Kerberos 是 一 个 认证 服务 器 。 

authorization (#242): 指 的 是 在 主体 被 认证 后 ， 它 对 安全 实体 是 否 有 访问 的 权限 。 见 第 14 章 。 


B 


background (FARI): 线程 的 一 种 分 类 (与 前 台 线程 相对 比 )， 所 有 的 前 台 线 程 比 后 台 线 程 有 更 高 的 调 
度 优先 级 。 

backward distance (后 方 距离 ): 在 页 面 调度 算法 中 ， 一 种 测量 时 间 的 方式 ， 指 的 是 指定 页 从 当前 点 到 上 次 
被 访问 的 时 间 值 。 | 

base thread (基线 程 ): 在 现代 进程 模型 中 ， 每 个 进程 被 创建 时 ， 至 少 有 一 个 线程 在 此 进程 中 运行 。 在 现代 
进程 中 ， 这 个 线程 被 称 为 基线 程 。 传 统 进程 等 同 于 具有 一 个 基线 程 的 现代 进程 。 

batch ( 批 处 理 ) : 等 候 执 行 的 一 组 作业 ( 见 batch system). 

batch system ( 批 处 理 系统 ) : 一 个 批 处 理 操作 系统 为 一 组 作业 ( 称 为 批 ) 提供 服务 ， 它 将 批 中 的 作业 逐个 
读 人 机 器 并 执行 每 个 作业 的 程序 。 

baud rate (WR): 通信 服务 中 的 信号 传输 速率 ， 表 示 每 秒 传输 的 信号 数目 。 

Belady’ s anomaly (Belady 奇异 ) : 一 种 页 替换 性 能 的 异常 ， 随 着 页 帧 数目 的 增加 ， 算 法 的 性 能 可 能 变 得 更 
低 。 见 12.4 节 。 l 

Belady’ s optimal replacement (Belady 最 优 算法 ) : 一 种 页 替换 策略 ， 从 主 存 中 淘汰 的 页 在 访问 流 上 有 最 大 
的 前 向 距离 。 见 12.4 节 。 

binary object program: 见 binary program. 

binary program (二 进 制 程序 ) ; 算法 /程序 规范 的 形式 ， 它 包含 了 与 计算 机 机 器 语言 相关 的 指令 。 它 也 称 
为 binary object program 或 executable program 形式 。 

binary semaphore (二 值 信 号 量 ) : 值 仅 取 0 和 1 的 信号 量 。 

BIOS (Basic Input/Output System， 基 本 输入 /和 输出 系统 ): 存储 在 IBM 个 人 计算 机 ROM 中 的 一 组 程序 。 
BIOS 是 一 组 独立 的 程序 ， 它 可 以 被 传统 的 软件 调用 ， 当 系统 初始 化 时 也 可 被 POST 软件 调用 ， 其 他 的 计 
算 机 在 它们 的 ROM 中 采用 了 类 似 的 程序 。 

bit (binary integer, ft): 能 够 表示 值 0 和 1 的 存储 单元 。 

block caching (HARRE): 文件 管理 器 使 用 的 一 种 技术 ， 对 单个 的 文件 操作 来 说 ， 拷 贝 到 存储 器 中 的 信 
息 被 保留 在 存储 器 中 ， 直 到 一 个 外 部 策略 指示 它 被 移 除 。 见 16.3 节 。 

block status map ( 块 状态 映射 ) : 一 个 在 内 存 中 的 映射 ， 蕊 描述 了 磁盘 中 每 一 一 块 的 分 配 状态 。 在 映射 中 的 
每 个 条 目 通常 用 一 位 来 表示 每 块 的 状态 。 

blocked (阻塞 状态 ) : 进程 或 线程 的 状态 ， 指 示 着 在 等 待 获 得 某 个 资源 。 

blocking receive (阻塞 接收 ) : IPC 接收 操作 ， 接 收 线程 /进程 会 阻塞 直到 信息 被 传递 给 它 。 

buffer {缓冲 ); 临时 保存 信息 的 存储 单元 。 在 1/O 系统 中 ， 在 应 用 程序 请 求 信息 之 前 ,缓冲 已 经 保持 有 从 
设备 读 入 的 输入 信息 。 当 输出 设备 可 用 时 ， 输 出 缓冲 持 有 等 候 被 写 人 的 信息 。 

bus (总 线 ) : 在 不 同 的 计算 机 部 件 之 间 用 来 传递 信息 的 硬件 部 件 ， 例 如 ， 总 线 用 来 在 处 理 机 和 主 存 间 传输 
数据 。 

busy-wait (EF): 进程 被 一 个 资源 (或 信号 量 ) 阻塞 的 情形 ， 但 是 它 一 直 占 有 处 理 机 来 持续 地 轮 询 它 
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的 阻塞 状态 直到 状态 改变 。 

byte (PP): 一 种 包含 8 个 位 的 存储 单元 。 一 个 字 节 可 以 取 256 种 位 模式 。 

bytestream file ( 字 节 流 文件 ) 一 种 低级 文件 ， 文 件 中 的 信息 通过 一 种 线性 的 字 节 顺序 组 织 在 一 起 ， 即 要 
访问 字 节 i 必须 先 访 问 字 节 i 1。 i 

bytecode (PH): 用 于 Java 的 一 种 中 间 语 言 。 


C 


c list: 参照 capability list. 

cache line: 高 速 缓存 中 进行 信息 调 人 和 调 出 的 单位 。 一 个 cache line 的 典型 大 小 是 在 16 到 128 字 节 之 间 。 

cache memory (高 速 缓存 存储 器 ) : 位 于 处 理 机 和 主 存 之 间 的 一 个 高 速 存储 器 。 当 处 理 机 需要 从 主 存单 元 中 
读 取 数据 时 ， 数 据 首 先 被 复制 到 高 速 缓存 ， 因 而 处 理 机 能 够 从 高 速 缓存 中 顺序 读 取 数 据 。 

capability (权能 ) : 表示 一 个 系统 中 一 个 对 象 的 访问 权限 的 唯一 、 全 局 名 ， 最 初 只 是 用 于 表示 一 个 主体 拥 
有 的 对 一 个 对 象 的 访问 权限 。 - - 

capability list { 权 能 列表 ) : 一 个 保护 机 制 的 访问 矩阵 中 的 一 行 。 一 个 权能 列表 标明 了 一 个 系统 中 对 不 同 的 
对 象 的 访问 权限 集 ， 每 一 访问 权限 是 一 个 权能 。 

carrier sense multiple access with collision detection ( 带 有 冲突 检测 的 载波 侦 听 多 路 访问 ) : 见 CSMA/CD. 

CBR: 见 code base register, 

CD (compact disk): 设计 来 存储 音频 信息 的 可 移动 的 随机 访问 存储 媒体 。 

CD-i (compact-disk—interactive) : CD-ROM 技术 的 改进 ， 设 计 来 支持 多 媒体 数据 ， 它 适合 于 音频 、 视 频 和 
一 般 的 数据 ， 参 见 CD-ROM, 

CD-R (CD-recordable): 格式 类 似 于 CD-ROM 的 紧凑 磁盘 ， 但 是 有 增强 的 设备 特征 。 参 见 CD-ROM。 

CD-RW (CD ReadWrite): 格式 类 似 于 CD-ROM 的 紧凑 磁盘 ， 但 是 盘 上 的 信息 可 以 被 抹 去 和 重 写 。 见 CD- 
ROM. 

CD-ROM (compact disk-read only memory): 能 够 存储 图 形 数据 的 CD 的 精炼 。 

certificate (证 书 ) : 证 书 是 与 移动 代码 相关 (或 在 Internet 上 下 载 的 其 他 代码 ) 的 数字 签名 。 

channel: 参照 IMO processor. 

checkpoint (检查 点 ) : 一 个 进程 的 完成 状态 的 快照 。 当 检查 点 设置 后 ， 可 用 于 在 该 点 重新 开始 进程 的 
执行 。 

checksum (KAM): 一 个 对 象 ， 常 常 是 一 个 整数 ， 由 一 些 大 的 数据 块 的 内 容 如 网 络 报 文 或 文件 的 函数 来 
确定 ， 校 验 和 可 用 作 数 据 传 输 错 误 的 简单 指示 器 。 

ciphertext (EX): 在 加 密 系 统 中 ， 这 指 的 是 加 密 过 的 信息 。 

circular buffering (循环 缓冲 ) : 一 种 缓冲 数目 多 于 两 个 的 缓冲 技术 ， 缓 冲 的 索引 值 在 0 到 N-1I 间 ， 并 且 
它们 被 安排 在 循环 列表 中 〈 按 索引 排序 ) ， 缓 冲 使 用 索引 来 填充 和 倒 空 。 参 见 buffer。 

circular wait (循环 等 待 ) :一 种 进程 状态 ， 当 进程 p 占有 资源 Ri 而 又 请 求 资源 R,， 而 进程 p 占有 资源 
R 而 又 请 求 资源 R 时 ， 称 之 为 循环 等 待 。 在 循环 等 待 中 可 能 涉及 多 个 进程 。 

clear text (明文 ): 在 加 密 系 统 中 ， 这 指 的 是 没有 加 密 的 信息 。 

client (ÆA): 见 client process. 

client process (客户 进程 ): 一 个 前 端 进程 通过 与 一 个 进程 〈 服 务 器 进程 ) 结合 而 获得 服务 。 

client stub (客户 存根 ): 驻 留 在 客户 机 中 的 系统 软件 ， 用 于 准备 一 个 远程 过 程 调 用 ， 传 送 调用 到 服务 器 ， 
接收 从 服务 器 传 回 的 结果 ， 并 且 把 结果 返回 到 调用 程序 中 。 ' 

client-server model (客户 -服务 器 模型 ) ; 一 个 分 布 式 计算 模 型 ， 一 方 (客户 方 ) 初始 化 通信 ， 被 动 的 一 方 
(服务 器 ) 等 候 客 户 请 求 。 见 15.6 节 。 

clock algorithm (时 钟 算法 ) : 一 种 实现 动态 页 帧 分 配 算法 的 技术 。 见 12.5 节 。 

clock cycle (时 钟 周期 )， 同 步 硬件 周期 ， 它 定义 了 计算 机 硬件 中 晶体 管 一 级 操作 发 生 的 速率 。 这 是 表示 
CPU 速 度 的 一 个 基本 单元 ， 尽 管 指 令 实际 上 是 在 一 个 时 钟 周期 内 执行 的 。 

cluster computer (集群 计算 机 ): 逻辑 的 多 处 理 机 计算 机 ， 可 能 是 物理 的 多 处 理 机 ， 或 者 是 一 组 高 速 互 连 的 
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紧 耦 合 的 单 处理 机 集群 。 见 18.3 节 。 

code base register (代码 基 址 寄存 器 ) : 在 段 式 虚 拟 存储 系统 中 ， 这 是 一 个 CPU 寄存 器 ， 它 指向 包含 当前 执 
行 代码 段 的 段 描述 符 。 

Cmd (command register， 命 令 寄存 器 ) : 命令 寄存 器 是 存储 器 或 设备 上 的 任何 寄存 器 ， 它 可 以 通过 软件 操 
作 来 设置 ， 从 而 使 得 相应 的 设备 执行 命令 。 

CMOS memory (CMOS 存储 器 ) : 耗 电 量 低 的 存储 器 ， 当 计算 机 没有 启动 时 由 电池 供电 ，CMOS 存储 器 用 
来 保存 计算 机 启动 时 需要 的 信息 。 

code segment (代码 段 ): 在 类 C 的 可 重 定 位 和 绝对 程序 映像 中 ， 这 是 一 个 逻辑 地 址 块 ， 表 示 对 机 器 指令 的 
访问 。 

Common Object Request Broker Architecture: 见 CORBA. 

command line interpreter (命令 行 解释 器 ) : 用 于 从 一 个 作业 流 或 交互 终端 中 读 取 操 作 系统 命令 ， 然 后 执行 
这 些 命令 的 程序 。 也 称 shell 程序 。 

communication device (通信 设备 ) : 使 用 如 公共 广播 、 同 轴 电 缆 或 电话 线 等 媒质 ， 来 在 计算 机 和 设备 间 传 


递 信息 的 设备 。 
communication network (通信 网 络 ) : 一 种 专门 化 的 网 络 ， 用 来 在 连 到 网 络 上 的 一 组 计算 机 间 发 送 数据 。 见 
第 15 章 。 . 


communication subnetwork: 见 communication network. 

compile time (编译 时 ) ， 当 源 程 序 被 转换 成 可 重 定位 对 象 模块 时 ， 程 序 转换 和 加 载 的 一 个 阶段 。 可 重 定位 
对 象 模块 存储 在 辅 存 上 直到 链接 时 。 

compute-bound (计算 限制 的 ) : 线程 的 一 个 特征 ， 意 味 着 花费 在 1/0 操作 上 的 时 间 要 比 使 用 CPU 的 时 间 
要 少 。 

concurrency: 见 concurrent execution. 

concurrent execution (并 发 执行 ) : 一 组 线程 间 的 并 发 操作 ， 指 的 是 这 种 情形 ， 尽 管线 程 物理 上 是 在 单 处 理 
机 上 串 行 执行 的 ， 但 是 它们 逻辑 上 看 起 来 是 并 行 执行 的 。 多 道 程序 设计 系统 支持 串 行 处 理 机 环境 中 的 并 
发 处 理 。 也 见 parallel execution. 

concurrent write sharing (并 发 写 共 享 ); 在 远程 文件 服务 器 中 ， 这 个 策略 允许 多 个 客户 在 任何 时 间 有 一 个 
可 写 的 块 拷贝 ， 然 而 它 排除 了 任何 块 缓存 。 见 16.3 节 。 

condition variable (条 件 变量 ) : 可 能 出 现在 一 个 管 程 中 的 结构 ， 它 对 管 程 中 的 所 有 过 程 是 全 局 的 ， 可 以 通 
过 等 待 、 发 信号 和 队列 操作 来 操纵 它 的 值 。 

confinement (限制 ) : 一 种 限制 信息 的 发 布 到 某 个 特定 环境 中 的 技术 。 见 14.1 节 和 14.3 节 。 

connection (连接 ) ; 一 种 网 络 抽象 ， 双 方 可 以 协调 它们 的 行为 来 确保 当 一 方 发 送信 息 给 另 一 方 时 ， 它 要 么 
BRA, 要么 发 出 一 个 合适 的 错误 通知 给 发 送 者 。 见 15.5 节 。 

consistent memory (一 致 性 存储 器 ) : 在 存储 层次 中 ， 存 储 层次 的 高 层 常常 有 底层 中 信息 的 多 个 拷贝 。 当 其 
中 的 一 个 拷贝 改变 时 ， 其 他 拷贝 保持 相同 ， 这 种 情形 可 以 说 存储 器 是 一 致 的 。 

consumable resource { 可 消费 资源 ) : 任何 分 配给 进程 而 不 回收 的 资源 ， 它 由 进程 消费 。 每 一 个 可 消费 资源 
也 一 定 至 少 有 一 个 生产 者 进程 。 

consumable resource graph (可 消费 资源 图 ) : 一 种 死 锁 检测 模型 ， 表 示 仅 由 可 消费 资源 组 成 的 系统 的 分 配 
状态 。 见 10.5 节 。 

content-addressable memory: 见 associative memory。 

context, processor (EFX, EI): 处 理 机 上 下 文 指 的 是 一 组 寄存 器 的 内 容 ， 它 由 在 处 理 机 上 执行 的 线 
程 /进程 确定 。 上 下 文 描述 了 执行 线程 的 虚拟 机 的 状态 。 

context switch (上 下 文 切换 ) : 是 这 样 一 个 过 程 ， 它 保存 一 个 进程 /线程 的 所 有 寄存 器 ， 然 后 用 另 一 个 进程 / 
线程 的 值 来 加 载 所 有 的 寄存 器 。 

context switcher (上 下 文 切换 器 ) : 本 书 中 使 用 的 一 个 非 形式 化 的 名 字 ， 指 的 是 执行 上 下 文 切 换 功 能 的 调度 
程序 部 分 。 . 

control unit (控制 部 件 ) : 计算 机 硬件 中 用 于 指令 的 解码 ， 然 后 使 得 指令 被 执行 。 
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controller, device: 见 device controller. i 

copy-on-write ( 写 时 复制 ): 从 源 到 目的 的 信息 拷贝 请 求 ， 并 不 导致 一 个 实际 的 拷贝 操作 ， 直 到 发 送 者 或 者 
接收 者 写 人 共享 信息 。 

counting semaphore: 见 general semaphore. 

CORBA (Common Object Request Broker Architecture， 公 共 对 象 请 求 代 理 体系 结构 ) ， 一 种 支持 多 语言 、 分 
布 式 对 象 的 开放 体系 结构 。 

CPU (central processing unit， 中 央 处 理 机 ): 参照 processor. 

critical section (ARR): 一 段 代码 ， 当 其 他 进程 处 在 相应 的 代码 段 中 时 该 代码 不 能 执行 。 例 如 ， 一 个 临 
界 区 可 能 是 两 个 不 同 的 程序 中 写 一 个 共享 变量 的 代码 段 。 

cryptography (WE): 编码 和 解码 信息 的 过 程 ， 理 论 上 ， 它 不 能 被 获得 信息 编码 形式 的 拷贝 的 第 三 方 所 解 
释 ， 见 第 14 章 。 

CSMA/CD (carrier-sense multiple access protocol with collision detection ， 带 有 冲突 检测 的 载波 侦 昕 多 路 访问 
协议 ) : 这 是 以 太 网 网 络 协议 。 

cycle (R): 在 一 个 图 中 ， 一 个 环 是 一 个 节点 通过 其 他 的 节点 再 回 到 本 身 的 一 条 路 径 。 

cylinder, disk (42H, M8): 在 有 多 个 面 的 磁盘 驱动 器 中 ， 每 个 表面 上 的 对 应 的 磁道 定义 了 一 个 磁盘 柱 
面 。 存 储 在 柱 面 上 的 所 有 块 可 被 磁盘 驱动 器 读 / 写 而 不 用 移动 读 / 写 头 。 

cyphertext: 见 ciphertext. 


D 


daemon (守护 进程 ) : 一 个 UNIX 进程 ， 它 代表 操作 系统 而 不 是 一 个 特定 用 户 运行 。 例 如 ， 一 个 行 打印 机 
daemon 以 文件 方式 接受 打印 作业 ， 而 且 在 打印 机 可 用 时 打印 它们 。 

data (HR): 在 进程 定义 的 上 下 文中 ， 数 据 是 进程 的 一 部 分 ， 它 表示 了 相应 程序 中 定义 的 静态 变量 。 

data bus (数据 总 线 ) : 在 系统 硬件 组 件 之 间 传 递 数 据 的 系统 总 线 部 分 。 参 见 bus。 

data base register {数据 基 寄 存 器 ): 在 段 式 虚拟 存储 系统 中 ， 这 是 一 个 CPU 寄存 器 ， 它 指向 包含 当前 数据 
段 的 段 描述 符 。 

data communication network (数据 通信 网 络 ) ， 见 communication network, 

data communication subnetwork (数据 通信 子 网 ) : IL communication network, 

data link layer (数据 链 路 层 ) : ISO OSI 网 络 体系 层 中 定义 的 基于 帧 的 通信 ， 该 层 允 许 进 程 跨 过 单个 的 网 络 
来 发 送 和 接收 信息 帧 。 

data segment (XER): 在 C 式 样 的 可 重 定位 和 绝对 程序 映像 中 ， 这 是 一 个 表示 静态 变量 的 逻辑 地 址 块 。 

datagram (数据 报 ): 网 络 传输 层 数 据 包 ， 其 中 以 < 网 络 ， 主 机， 端口 > 三 部 分 地 址 形式 详细 说 明 发 送 方 
和 接收 方 的 地 址 。UDP 是 最 广 为 使 用 的 发 送 和 接收 数据 报 的 协议 。 

DBMS (database management system， 数 据 库 管 理 系 统 ) : 抽象 文件 操作 以 提供 存储 系统 接口 的 系统 软件 ， 
使 用 户 和 程序 可 以 使 用 如 “查询 ”的 操作 来 访问 数据 库 中 的 记录 。 它 是 计算 机 科学 的 一 个 主要 领域 ， 有 
专门 的 著作 论述 。 

DBR: 见 data base register 

DCE (Distributed Computing Environment， 分 布 式 计 算 环 境 ) : 使 用 传统 的 网 络 操作 系统 平台 ， 支 持 分布 式 
应 用 程序 设计 的 中 间 件 包 的 集合 。 

deadlock ( 死 锁 ) : 当 两 个 或 更 多 的 进程 占有 资源 而 又 请 求 其 他 资源 时 引起 的 一 种 状态 。 某 个 进程 占有 另 一 
个 进程 请 求 的 资源 ， 同 时 又 请 求 第 二 种 资源 ; 而 另 一 个 进程 占有 第 二 种 资源 ， 则 时 又 请 求 前 面 进程 所 占 
有 的 资源 ， 因 而 两 个 进程 都 不 能 继续 执行 。 

deadlock state ( 死 锁 状态 ) : 两 个 或 多 个 线程 /进程 被 死 锁 的 一 种 系统 状态 。 

deadly embrace: 见 deadlock. 

def table: 见 definition table. 

definition table (EMH): 由 编译 器 产生 的 表 ， 它 包含 了 在 当前 可 重 定位 模块 中 定义 的 外 部 符 导 ， 这 被 链 
接 器 使 用 来 联结 外 部 引用 和 定义 。 





530 K BR 





delayed write-back policy (延迟 写 回 策略 ): 在 客户 方 使 用 块 高 速 缓存 的 远程 文件 服务 器 中 ， 当 服务 器 有 空 
闲 时 间或 在 过 了 一 个 以 前 定义 的 时 间 间 隔 后 ， 才 执行 块 写 回 操作 。 见 16.3 节 。 

demand paging (请 求 分 页 ): 只 有 当 一 个 页 使 用 时 才 被 载 人 。 

descriptor (描述 表 ): 用 来 表示 不 同 的 操作 系统 抽象 (如 进程 、 线 程 、 文 件 和 其 他 资源 ) 的 细节 的 操作 系 
统 数 据 结构 。 

detection and recovery (检测 和 恢复 ); 一 种 死 锁 处 理 策略 ， 通 过 运行 一 个 算法 检查 系统 是 否 有 死 锁 。 如 果 
发 现 有 死 锁 ， 就 剥夺 资源 从 而 避免 死 锁 

determinate (确定 性 ): 参照 nondeterminate, 

device {设备}: 计算 机 中 能 够 用 于 存储 信息 、 在 机 器 间 进 行 传送 和 接收 信息 以 及 与 用 户 进行 信 息 的 输入 输 
出 的 部 件 。 

device controller (设备 控制 器 ) : 连接 设备 到 计算 机 的 地 址 和 数据 总 线 的 硬件 单元 ， 它 提供 了 一 套 组 件 ， 
CPU 指令 可 以 操纵 它 来 使 得 设备 工作 。 

device driver (设备 驱动 程序 ) : 用 来 管理 特定 设备 的 设备 管理 器 软件 的 设备 相关 部 分 。 

device handler (设备 处 理 程 序 ) : 与 具体 设备 相关 的 处 理 中 断 的 软件 。 

device major number (设备 主 设备 号 ) ， 标识 一 类 设备 的 数字 ， 这 类 设备 可 被 一 个 特定 设备 驱动 程序 类 型 所 
处 理 。 

device management (设备 管理 ) : 操作 系统 中 的 组 成 部 分 ， 用 于 生成 设备 抽象 以 提供 对 设备 进行 操作 和 控 
制 的 机 制 。 

device minor number (设备 次 设备 号 ) : 标识 一 类 设备 中 特定 设备 的 数字 ， 次 设备 号 通常 用 来 定义 一 个 设备 
的 设备 驱动 程序 。 

device registration (设备 注册 }: 在 一 个 可 配置 的 设备 驱动 程序 系统 中 ， 设 备 驱动 程序 导出 的 功能 通过 显 式 
的 行动 注册 到 操作 系统 中 。 

digital rights management (DRM) (数字 权限 管理 ) : 分 配 权限 给 内 容 和 然后 为 内 容 的 使 用 控制 安全 策略 的 
方法 学 。 见 14.4 节 。 

device status table { 设 备 状态 表 ) : 一 个 操作 系统 表 ， 用 来 保存 当前 正在 处 理 的 设备 操作 的 状态 。 

digital signature (HFEA): ”用 来 认证 信息 源 的 加 密 签名 (使 用 公 钥 加 密 )。 

direct access device (直接 访问 设备 ) : 见 random device. 

direct 1/0 (直接 1/0): 一 种 1/0 BREA, 1/0 操作 由 处 理 机 管理 而 不 是 由 辅助 I/O 处 理 机 管理 。 

direct memory access: 参照 DMA. 

directory (AR): 逻辑 相关 的 文件 和 其 他 目录 的 集合 。 

dirty bit ( 脏 位 ): 页 表 中 的 一 种 标记 ， 它 表明 自从 页 调 人 后 被 写 过 。 

disk bitmap (磁盘 位 图 表 ): 见 block status map. 

disk cylinder (磁盘 柱 面 ): 一 个 磁盘 驱动 器 中 相应 磁道 的 集合 ， 它 包 合 多 个 记录 面 并 且 有 一 组 固定 的 读 / 
写 头 。 

disk sector (RAK): 一 个 旋转 磁盘 的 磁道 中 含 一 定 角度 的 部 分 ， 它 包含 一 个 磁道 的 一 块 信息 ， 磁 道 的 
信息 存 取 是 以 扇 区 为 单位 进行 的 。 

disk track (磁道 ) : 一 个 旋转 存储 介质 中 的 圆 形 的 记录 区 域 。 一 个 磁盘 中 会 有 若干 同心 环 ， 它 们 被 分 成 若 
干 扇 区 而 形成 块 。 

dispatcher (分 派 器 ) : CPU 调度 程序 的 一 部 分 ， 它 选择 下 一 个 线程 ， 然 后 促使 相关 的 上 下 文 切换 。 

dispatcher object (分 派对 象 ) : 在 Windows NT 内 核 中 ， 分 派对 象 包含 了 一 种 机 制 来 实现 面向 对 象 的 同步 ， 
Windows 等 候 函 数 在 分 派对 象 事件 上 同步 。 见 9.1 节 。 

distributed computation (分 布 式 计 算 ) : 一 类 软件 ， 其 中 两 个 或 多 个 线程 /进程 一 起 来 解决 一 个 共同 的 问题 。 

distributed memory (分 布 式 存储 器 ) : 存储 器 管理 方法 的 一 种 ， 在 分 布 式 存储 器 中 ， 在 不 同 的 机 器 上 实现 
的 物理 上 分 离 的 存储 块 可 以 被 不 同 进程 在 各 自 的 地 址 空间 中 访问 。 

distributed memory multiprocessor (分 布 存储 多 处 理 机 ); 一 个 多 处 理 机 体系 结构 ， 由 高 速 交换 网 互 连 的 多 
个 传统 的 汉 . 诺 依 曼 计算 机 组 成 。 
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distributed operating system (分 布 式 操作 系统 ) : 其 中 所 有 的 操作 都 是 网 络 透明 的 一 种 操作 系统 。 见 19.6 节 。 

distributed shared memory (分 布 式 共享 存储 器 ) : 一 种 网 络 共 享 存储 器 方法 ， 存 储 器 客户 使 用 传统 主 存 接 
口 来 读 写 存 储 位 置 ， 见 17.2 节 。 

distributed synchronization (分 布 式 同步 ) ， 跨 不 同 机 器 构成 的 网 络 间 所 使 用 的 同步 技术 和 方法 。 见 17.5 节 。 

double buffering ( 双 缓 冲 ) : 一 种 使 用 两 个 缓冲 来 完成 缓冲 的 技术 ， 双 缓冲 通常 用 在 设备 控制 器 中 ， 参 见 
buffer. 

DMA (direct memory access， 直 接 存储 访问 ) : 通过 O 控制 器 直接 在 外 设 和 主 存 之 间 进 行 信息 的 传送 ， 而 
无 需 处 理 机 的 干涉 的 一 种 访问 技术 。 

DNS (domain name service, RERE): DNS 是 一 个 用 于 公共 因特网 的 名 字 服 务 ， 它 可 用 于 为 符号 名 如 
anchor.cs.colorado.edu 的 机 器 查询 (net#, host#)o W 15.6 47. 

domain name service: 见 DNS。 

DRM: Jil digital rights management. 

dynamic address space binding (动态 地 址 空间 绑 定 ) ; 见 dynamic relocation. 

dynamic relocation (动态 重 定位 ) : 一 种 形式 的 地 址 重 定位 ， 绝 对 模块 地 址 在 运行 时 被 绑 定 到 主 存 位 置 。 


E 


embedded system (MAX KZ): 它 是 一 类 计算 机 ， 在 一 个 大 型 系统 中 它 是 作为 一 个 组 件 出 现 的 ， 例 如 ， 
在 飞机 上 的 向 导 计算 机 和 微波 炉 上 的 控制 计算 机 都 是 让 人 式 系 统 。 

entry point (AOA): 当 程 序 执行 时 首先 开始 执行 的 位 置 。 

enqueuer (排队 器 ) : 本 书 中 使 用 的 一 个 非 形 式 化 的 名 字 ， 它 指 的 是 将 线程 置 人 CPU 就 绪 队 列 的 调度 程序 
的 一 部 分 。 

event (W): 这 个 术语 有 两 个 类 似 的 使 用 ， 最 韭 形式 化 的 定义 指 的 是 任何 条 件 的 发 生 ， 例如， 一 个 进程 
完成 了 一 个 阶段 的 执行 。 对 于 操作 系统 同步 机 制 的 一 个 更 严格 定义 是 ， 内 核 数 据 结构 (一 个 事件 描述 
符 ) 捕获 了 等 候 事件 发 生 的 进程 / 钱 程 的 标识 ， 以 及 可 能 是 事件 发 生 的 状态 。 

event descriptor (事件 描述 表 ): 使 用 事件 来 管理 同步 的 操作 系统 数据 结构 。 

eventcounts (事件 计数 ) : 利用 计算 单元 的 执行 间 的 已 知 的 顺序 来 工作 的 同步 机 制 。 见 17.5 节 。 

executable memory ( 可 执行 存储 器 ) : 见 primary memory. 

executable program (可 执行 程序 ) 见 binary program. 

exclusive control (独占 性 控制 ) : 必须 设计 操作 系统 资源 管理 器 ， 使 得 它 能 确保 当 一 个 资源 被 分 配给 一 个 进 
程 时 ， 其 他 的 进程 不 能 访问 这 个 资源 。 被 分 配 资源 的 这 个 进程 对 资源 有 独占 性 控制 。 

explicit sharing: 见 sharing。 

extensible nucleus organization (可 扩展 内 核 组 织 结构 )， 是 一 种 模块 化 操作 系统 结构 。 便 于 结合 一 些 策略 独 
立 的 公用 模块 集合 实现 实时 系统 、 分 时 系统 等 特定 系统 。 

external authentication (外 部 认证 ); 在 保护 机 制 中 ， 外 部 的 认证 机 制 确定 外 部 的 用 户 是 否 是 他 或 她 所 声称 
的 身份 。 见 14.2 节 。 ， ， 

external fragmentation (外 部 碎片 ) : 在 存储 管理 中 ， 这 指 的 是 存储 器 中 未 分 配 的 部 分 ， 它 太 小 而 不 能 满足 
任何 进程 的 存储 需求 。 

external priority (外 部 优先 级 ) : 一 个 用 来 表示 线程 的 优先 级 的 数字 ， 它 通过 用 户 的 优先 级 来 确定 竞争 资源 
(常常 是 CPU)。 


F 


FAT (file allocation table， 文 件 分 配 表 ): MS-DOS 文件 系统 的 文件 描述 表 。 

fault rate ( 缺 页 错误 率 ): 引发 缺 页 中 断 的 页 访问 的 比率 。 

FCFS; 见 first-come-first-served。 

fetch policy (WR): 决定 一 个 页 什么 时 候 调 人 主 存 的 策略 。 

fetch-execute algorithm (RES 一 执行 算法 ): 描述 CPU 控制 单元 的 活动 的 算法 ， 取 阶段 从 主 存 中 获得 指 
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令 ， 执 行 阶段 执行 指令 。 . 

FIFO (first-in, first-out) replacement (FIFO #32): 一 种 页 替换 策略 ， 主 存 中 加 载 的 第 一 页 被 选择 来 替 
换 。 见 12.4 节 。 

file (XH): 一 个 命名 的 抽象 资源 ， 它 可 以 为 以 后 的 访问 存储 字 节 流 或 者 从 中 污 取 字 节 流 以 获得 数据 。 

file access functions (文件 访问 函数 ) : 用 来 读 写 文件 中 结构 化 信息 的 文件 管理 器 函数 。 

file caching (文件 缓存 ) : 一 般 来 说 ， 这 个 术语 指 的 是 对 文件 进行 部 分 或 全 部 复制 来 提高 性 能 的 任何 技术 。 
在 一 些 上 下 文中 ， 它 指 的 是 文件 缓冲 ， 在 分 布 式 操作 系统 上 下 文中 ， 它 指 的 是 远程 文件 设计 策略 。 

file descriptor (文件 描述 表 ) : 保持 文件 状态 的 操作 系统 数据 结构 。 

file management (文件 管理 ): 操作 系统 的 功能 组 成 部 分 ， 它 可 以 生成 文件 抽象 并 提供 操作 和 控制 文件 的 
机 制 。 

file pointer (文件 指针 ) : 字 节 流 文件 的 索引 ， 表 示 文 件 中 的 一 个 特定 字 节 。 当 文件 被 打开 时 ， 文 件 指针 访 
问 文件 中 的 第 一 个 字 节 。 

file system (文件 系统 ): 在 文件 层次 集合 中 的 一 个 子 树 ， 它 作为 一 个 单独 的 文件 集合 存在 ， 例 如 ， 一 个 软 
盘 有 它 自 己 的 文件 系统 。 

file system interface (文件 系统 接口 ) : 文件 管理 器 导出 了 一 组 系统 调用 (文件 系统 接口 ) ， 应 用 程序 可 以 使 
用 这 些 系统 调用 来 读 写 文件 。 见 2.2 节 。 

firewall (RRA): 在 公共 因特网 和 组 织 中 的 每 个 计算 机 间 放 置 的 一 台 机 器 ， 防 火 墙 仅 允许 安全 策略 许可 
的 因特网 的 访问 请 求 。 

first-come-first-served (FCFS) ( 先 来 先 服务 ) : 以 线程 请 求 处 理 机 的 次 序 来 给 线程 分 配 优先 级 的 调度 策略 。 

Firewire: 总 线 控制 器 和 协议 ， 它 为 设备 (如 数字 照相 机 和 MP3 音频 播放 器 设备 ) 提供 了 外 部 的 连接 。 

foreground (HIG): 线程 的 一 种 分 类 (与 后 台 线程 相 比 较 )， 所 有 的 前 台 线 程 比 后 台 线 程 的 调度 优先 级 高 。 

forward distance (前 方 距离 ): 在 页 面 调度 算法 中 ， 从 当前 时 间 一 个 指定 的 页 被 再 次 访问 时 ,采取 的 一 种 
虚拟 时 间 的 手段 。 

free list (空闲 列表 ) : 通常 用 于 文件 系统 中 表示 未 分 配 块 的 状态 。 

frontend machine (前 端 机 ) : 用 于 控制 一 个 非 传统 的 并 行 机 器 的 传统 汉 : 诺 依 曼 计算 机 。 

function unit (功能 单元 ) : CPU 中 算术 逻辑 单元 中 的 一 个 部 件 ， 它 的 作用 是 执行 存储 在 CPU 寄存 器 中 操作 
数 的 操作 。 


G 


Gantt chart (Gantt HÆ): 一 种 二 维 图 表 ， 它 的 y 轴 表 示 单 元 的 活动 ，x 轴 表 示 单 元 的 时 间 。Gantt 图 表 可 
以 直观 反映 出 单元 活动 的 串 行 化 或 者 能 够 重 释 执 行 的 程度 。 

gateway (WK): 提供 两 个 或 多 个 域 互 连 的 服务 ， 它 可 以 在 域 间 提供 一 些 形 式 的 转换 。 在 网 络 中 ， 它 可 以 
互 连 两 个 或 多 个 不 同 的 网 络 ， 使 数据 报 文 可 以 在 各 个 网 络 的 主机 间 进 行 交换 。 

general resource graph (一 般 资源 图 ) : 一 个 死 锁 检测 模型 ， 它 表示 了 由 消费 资源 和 可 重用 资源 组 成 的 系统 
的 分 配 状 态 ， 见 10.5 节 。 

general semaphore (通用 信号 量 ) : 可 以 取 任 何 非 负 整数 值 的 信号 量 。 

gigabit (Gb): 大 约 十 亿 位 ， 准 确 为 1 073 741 824 位 。 

gigabyte (GB): 大 约 十 亿 字 节 ， 准 确 为 1 073 741 824 字 节 。 

global clock (全 局 时 钟 ) : Lamport 的 全 局 时 钟 是 一 个 逻辑 时 钟 ， 它 用 来 在 网 络 上 发 生 的 事件 集 上 建立 一 个 
偏 序 。 尽 管 时 钟 实际 上 并 不 保持 时 间 ， 但 是 它 保存 了 因果 关系 并 上 且 常常 用 于 网 络 范围 内 的 同步 。 见 17.5 节 。 

global LRU: Ji, clock algorithm. 

graph reduction (图 的 化 简 ) : 在 死 锁 进程 资源 模型 中 ， 这 是 一 个 用 来 分 析 模型 表示 的 状态 的 操作 。 见 10.5 节 。 

gridlock (网 格 锁 ) : 在 汽车 交通 中 的 死 锁 。 见 第 10 章 开 始 处 的 讨论 。 


, H 
HAL (hardware abstraction layer， 硬 件 抽象 层 ) ， 提取 了 硬件 的 不 同 细节 (如 中 断 地 址 ) 的 Windows 操作 
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系统 组 件 ， 使 得 操作 系统 可 以 根据 抽象 层 来 进行 编写 而 不 采用 固化 的 地 址 。 

hardware buffer (硬件 缓冲 ) : 在 设备 控制 器 中 实现 的 一 个 缓冲 。 也 参见 buffer 

hardware dynamic relocation (硬件 动态 重 定位 ) : 见 dynamic relocation. 

hardware process (硬件 进程 ); 表示 控制 单元 取 和 执行 指令 时 的 重复 活动 ， 尽 管 它 根本 就 不 是 一 个 操作 系 
统 进程 ， 但 它 表 示 了 硬件 的 动态 指令 执行 。 

hash ( 哈 希 ) : 在 安全 上 下 文中 ， 这 是 消息 摘要 的 另 一 个 名 字 ( 见 14.4 节 )。 例 如 ， 见 SHA-1 (http: //Avww. 
itl. nist. gov/fipspubs/fip180-1. htm) o 

heterogenous file system ( 异 构 文 件 系统 ) : 构成 文件 系统 的 文件 层次 并 不 必要 全 是 相同 类 型 。 

heterogeneous system ( 异 构 系 统 ) : 一 个 由 不 同类 型 的 处 理 机 组 成 的 并 行 机 器 ， 或 者 由 不 同类 型 的 计算 机 组 
成 的 网 络 。 

hierarchical name space 【层次 名 字 空 间 ) : 组 织 成 树 结构 的 名 字 集 。 通 常 ， 这 个 术语 用 于 文件 系统 组 织 ， 其 
中 ， 有 一 个 包含 了 文件 和 其 他 目录 的 单个 的 根 目 录 ， 最 终 的 组 织 就 是 树 。 

high-level file system (高 级 文件 系统 ) : 仅 提供 记录 流 支持 的 文件 系统 ， 包 括 定义 和 管理 记录 的 机 制 。 见 第 
13 章 。 

hold-and-wait condition (占有 并 等 待 状态 ): 一 个 进程 保持 一 种 资源 的 同时 又 请 求 另 一 种 资源 的 状态 。 

homogeneous system ( 同 构 系统 ) : 一 个 都 使 用 相同 类 型 的 处 理 机 的 并 行 机 或 网 络 。 

hop (RE): 在 ISO OSI 网 络 层 中 ， 一 跳 指 的 是 将 一 台 机 器 的 操作 通过 一 个 数据 链 路 层 定向 到 下 一 个 机 器 
中 。 见 15.4 节 。 

horizontal architecture (水 平 体系 结构 ) : 参照 layered organization. ， 

HTML (HyperText Markup Language， 超 文本 标记 语言 ) : 定义 了 一 组 文本 格式 原 语 的 语言 ， 它 可 以 被 徐 人 
到 文本 文件 中 来 指定 文件 中 文本 的 元 数据 。 

HTTP (HyperText Transfer Protocol， 超 文本 传输 协议 ) : 用 来 在 因特网 上 传输 包含 超 文本 (通常 是 HTML 
格式 ) 文件 的 会 话 层 协议 。 


I 


idempotent operation (WRF): 可 以 重复 执行 的 操作 ， 产 生 的 结果 都 是 相同 的 ， 如 同 只 执行 了 一 次 一 
样 ,6 如 一 个 增 量 操作 就 不 是 宕 等 的 ， 而 一 个 赋值 操作 是 宕 等 的 。 短 等 操作 用 于 无 状态 协议 中 以 使 互 操作 
更 加 可 靠 。 

idle process (空闲 进程 ) JL idle thread. 

idle thread (空闲 线程 ) : 系统 中 最 低 优先 级 的 线程 。 这 个 线程 仅 在 没有 其 他 线程 使 用 CPU 时 才 使 用 CPU。 

inclusion property (包含 特性 }， 替换 某 页 算法 的 特性 ， 如 果 进 程 有 m 个 内 存 页 帧 空间 时 ， 菜 些 页 被 询 信 ， 
那么 当 进程 有 mm + 1 个 内 存 页 帧 空间 时 ， 这 些 页 也 会 调 人 。 

index block (索引 块 ): 在 文件 管理 器 中 ， 这 是 一 个 指向 文件 中 每 个 块 的 文件 描述 符 表 。 

index field (索引 域 ) : 结构 化 文件 系统 中 的 记录 的 一 部 分 ， 用 来 标识 记录 。 

index table (索引 表 ) : 在 反 向 文件 组 织 中 ， 索 引 表 是 文件 中 每 个 记录 的 索引 在 内 存 中 的 拷贝 。 见 13.2 节 。 

indexed addressing (索引 寻 址 ) : 将 索引 寄存 器 的 内 容 加 到 编译 形成 的 地 址 上 ， 生 成 目标 操作 数 的 地 址 。 

indexed sequential file (索引 顺序 文件 ) : 被 组 织 成 一 个 线性 记录 顺序 的 文件 类 型 ， 文 件 管理 器 使 用 索引 来 
读 写 任何 具体 的 记录 。 见 13.2 节 。 

indirect addressing (间接 寻 址 ) : 编译 成 的 指令 字 中 包含 某 个 存储 单元 的 地 址 ， 该 单元 包含 着 目标 操作 数 的 地 址 。 

indivisible operation (不 可 分 割 的 操作 ) : 如 函数 ， 由 不 止 一 条 指令 组 成 。 这 组 指令 要 么 不 执行 ,要么 被 保 
证 作为 一 组 来 执行 。 

infrastructure, device manager (基础 设施 ， 设 备 管理 器 ) : 操作 系统 的 一 部 分 ， 用 来 管理 具体 设备 的 设备 驱 
动 程序 。 它 导出 了 设备 系统 调用 并 路 由 系统 调用 到 正确 的 设备 驱动 程序 。 

initial process (初始 进程 ): 在 系统 初始 化 时 ， 操 作 系 统 中 创建 的 第 一 个 进程 ， 它 是 计算 机 中 所 有 其 他 进程 
的 祖先 。 

initial state (初始 状态 }: 在 状态 转移 图 中 ， 初 始 状 态 表示 了 系统 启动 时 的 状态 。 
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initial thread (初始 线程 ) : 见 initial process. 

inode: 在 UNIX 中 的 文件 描述 表 。 

input buffer (输入 缓冲 ) : 见 buffer。 

input device (输入 设备 ) : 用 来 将 信息 输入 到 计算 机 的 计算 机 外 围 设备 ， 键 盘 、 扫 描 仪 、 鼠 标 和 数字 照相 
机 都 是 输入 设备 的 例子 。 

input/output processor; 参照 IMO processor。 

instruction register (HORA): 见 IR。 

internal fragmentation ( 内 部 碎片 ) : 在 存储 管理 器 中 ， 这 指 的 是 分 配 的 存储 块 中 未 使 用 的 一 部 分 。 当 存储 
管理 器 必须 为 进程 分 配 更 多 的 存储 内 存 时 ， 就 会 出 现 内 部 碎片 。 

internal priority ( 内 部 优先 级 ) : 见 priority。 

internet (HERA): 一 组 单个 网 络 ， 它 们 被 配置 使 得 每 个 网 络 上 的 一 些 主机 被 连接 到 其 他 的 网 络 上 ， 这 样 
导致 的 结果 被 认为 是 一 个 逻辑 图 ， 其 中 的 节点 是 整个 网 络 ， 边 是 连接 网 络 的 网 关 。 

internet address space (互联 网 地 址 空间 ) : 可 使 用 ISO OSI 网 络 层 访问 的 主机 和 网 络 的 名 字 集 合 。 

Internet Protocol: 参照 IP, 

interprocess communication: 参照 IPC. 

interrupt (FER): 一 个 信号 ， 促 使 控制 单元 分 支 到 一 个 特定 位 置 ， 并 执行 代码 来 服务 外 部 条 件 的 发 生 。 

interrupt handler (中 断 处 理 程序 ) ， 当 一 个 中 断 发 生 时 执行 的 操作 系统 例 程 ， 它 保存 处 理 机 状态 ， 然 后 分 
派 一 个 设备 驱动 程序 来 服务 引起 中 断 的 设备 。 

interrupt request (中 断 请 求 ) : 当 任 何 设备 完成 O 操作 时 保持 的 硬件 标志 ， 这 个 标志 在 每 个 指令 执行 周 
期 都 会 被 控制 单元 检查 。 | 

interrupt vector (中 断 向 量 ): 中 断 请 求 标志 的 一 个 数组 ， 理 想 情况 下 ， 每 个 设备 被 分 配给 数组 的 一 个 元 
素 , 尽 管 系统 的 设备 数 比 数组 元 素 多 ,分 配 多 个 设备 给 一 个 单个 的 设备 驱动 程序 。 

interval timer (间隔 计时 器 ) : 见 programmable interval timer. 

inverted file (REX): 一 个 文件 ， 操 作 系统 用 索引 访问 文件 中 每 个 记录 的 方式 来 管理 表 。 

1/O-bound (1/0 限制 的 ): 线程 的 特征 ， 意 味 着 花费 在 /O 操作 上 的 时 间 比 花费 在 使 用 CPU 上 的 时 间 要 多 。 

T/Oprocessor (I/O 处 理 机 ): 自治 的 输入 /输出 处 理 机 ， 它 可 以 在 中 央 处 理 机 工作 的 同时 直接 与 一 个 或 多 个 
LO 设备 进行 操作 。 

IP (Internet Protocol， 网 际 协议 ) : 来 自 ARPAnet 的 网 络 层 协 议 ， 提 供 了 网 络 地 址 、 主 机 和 端口 组 件 。 协 
议 实现 也 提供 了 通过 相应 的 互联 网 的 路 由 。 见 15.4 节 。 

IPC (interprocess communication， 进 程 间 通 信 ): 一 组 用 于 两 个 进程 间 进行 信息 交换 的 机 制 。 

IR (instruction register， 指 令 寄存 器 ) : 控制 部 件 的 寄存 器 ， 它 包含 有 当前 正 被 解码 和 执行 的 指令 的 副本 。 
IRQ: 常常 用 来 意味 着 一 个 中 断 请 求 。 

ISO: 国际 标准 组 织 。 

ISO OSI: 一 个 标准 化 的 体系 模型 ， 它 定义 了 由 7 层 功能 组 成 的 模型 中 的 协议 ， 从 发 送信 和 号 协议 到 应 用 交 
互 协议 。 见 15.2 节 。 

ISO Open Systems Interconnect (ISO 开放 系统 互 连 ) : 见 ISO OSI 

ISR (中断 服务 例 程 )， 常常 用 来 表示 一 个 中 断 服务 例 程 ， 也 称 之 为 中 断 处 理 程序 。 


J 


job (作业 ) ; 一 系列 的 命令 、 程 序 和 数据 ， 并 联合 到 一 个 单个 的 单元 〈 作 业 ) 中 ,然后 被 递交 给 批 处 理 操 
作 系 统 来 执行 。 

job control specification (作业 控制 规范 ) : 包含 操作 系统 命令 脚本 的 作业 部 分 ， 它 可 适用 于 作业 的 其 他 成 
分 。 在 某 种 意义 上 ， 作 业 控 制 规范 是 一 个 程序 ， 它 描述 了 完成 作业 需要 执行 的 操作 系统 命令 集 。 


K 
kernel (H): 作为 可 信 软 件 来 执行 的 操作 系统 的 一 部 分 ， 在 处 理 机 有 一 个 模式 位 的 操作 系统 中 ， 内 核 模 
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式 位 被 设置 到 特权 模式 下 运行 的 软件 。 

kernel space (内 核 空 间 ): 见 system spaces 

kernel thread (ARH): 在 支持 多 线程 进程 的 操作 系统 中 ， 可 能 在 用 户 空间 类 库 实 现 线程 抽象 ， 也 可 以 
在 操作 系统 中 实现 线程 抽象 。 如 果 操 作 系统 提供 支持 ， 就 说 实现 了 内 核 线程 。 也 见 userspace threads. 

key certificate: 见 certificate。 

kilobit (Kb): 大 约 为 一 和 于 位 ， 准 确 为 1024 位 。 

kilobyte (KB): 大 约 为 一 千 个 字 节 ， 准 确 为 1024 字 节 。 

knot (44): 在 一 个 图 中 ， 一 个 结 是 一 组 节点 ， 从 任何 结 点 的 任何 路 径 仅 通 向 集合 中 的 结 点 。 


L 


LAN (local area network， 局 域 网 ) : 允许 多 个 计算 机 间 相 互 交 换 信 息 的 通信 机 制 。 

latency time (延迟 时 间 ): 在 磁 盘 技术 中 ,每 当 读 / 写 头 对 齐 到 目标 磁道 时 ， 就 会 产生 旋转 延迟 。 在 消息 传 
递 上 下 文中 ， 它 是 消息 传递 延迟 时 间 ( 见 第 5 章 )。 在 网 络 中 ， 延 迟 时 间 是 从 网 上 的 一 个 点 发 送 消息 给 
另 一 个 点 的 时 间 ( 见 第 15 章 )。 

layered kernel (层次 化 内 核 ) Sil layered organizations 

layered organization (层次 化 组 织 结构 ):; 功能 被 分 成 抽象 机 器 层次 的 操作 系统 组 织 结构 ， 层 i 中 的 功能 根 
据 层 ; -1 提供 的 功能 来 实现 。 

least recently used replacement: 参照 LRU replacement. 

LFU (least frequently used) replacement (最 小 使 用 频率 替换 策略 ) ; - -种 页 替换 策略 ， 根 据 对 页 的 已 访问 
的 次 数 来 选择 将 从 主 存 中 移 除 的 页 。 

lightweight process ( 轻 权 进 程 ) : 参照 thread。 

limit register (界限 寄存 器 ) : 一 个 CPU 寄存 器 ， 它 加 载 了 包含 程序 的 存储 块 的 长 度 。 当 程序 被 执行 时 ， 界 
限 寄存 器 的 内 容 与 有 效 地 址 相 比 来 确定 它 是 否 在 块 内 。 上 见 11.4 节 。 

link editor (链接 编辑 器 ) : 将 可 重 定位 模块 与 类 库 模 块 联合 来 产生 适合 加 载 的 绝对 程序 的 转换 工具 。 

link time (链接 时 ) : 程序 转换 和 加 载 的 阶段 ， 来 自 编 译 器 和 类 库 的 可 重 定位 目标 模块 被 联合 来 形成 一 个 绝 
对 模块 。 绝 对 模块 存储 在 辅 存 直 到 加 载 时 。 

linkage segment (HHR): 包含 了 段 描述 符 间 接地 址 的 特定 Multics Be. 

livelock (F$): 一 组 进程 的 实际 死 锁 现 象 ， 尽 管 每 个 进程 可 执行 像 轮 询 这 样 的 操作 。 

loader (加 载 程序 ); 也 称 之 为 绝对 加 载 程 序 。 它 从 辅 存 中 找到 绝对 程序 模块 ， 将 模块 转换 成 适合 执行 的 形 
式 ， 并 且 将 最 终 可 执行 的 映像 载 人 主 存 中 。 

load time (加 载 时 ) ; 程序 转换 和 加 载 的 阶段 ， 由 链接 编辑 器 产生 的 绝对 程序 在 主 存 中 被 重新 定位 和 放置 。 

local area network: 参照 LAN。 

locality (局 部 性 ) : 程序 执行 时 所 涉及 的 页 与 它 最 近 使 用 的 页 有 关 的 特性 。 循 环 所 引起 的 局 部 性 往往 是 通 
过 下 标 关联 的 数组 或 其 他 数据 结构 的 访问 。 

lock ($): 与 文件 、 临 界 区 等 资源 相关 联 的 标志 ， 它 表明 该 资源 正在 使 用 或 者 是 有 效 的 。 

long-term scheduler (高 级 调度 ) : 在 批 处 理 假 脱 机 系统 中 ， 为 缓冲 池 中 的 作业 分 配 磁盘 空间 ， 从 而 使 它们 
可 以 开始 竞争 内 存 的 调度 程序 。 

low-level file system (低级 文件 系统 ) : 只 对 字 节 流 提供 支持 的 文件 系统 ， 而 不 支持 高 级 抽象 。 见 第 13 章 。 

LRU (least recently used) replacement (最 近 最 少 使 用 替换 策略 ) : 一 种 页 替换 的 算法 ， 它 替换 过 去 最 长 时 
间 未 用 的 载 入 页 。 


M 


MAC (protocols): 在 网 络 中 ，MAC 协议 是 物理 层 和 数据 链 路 层 协 议 ， 这 些 协议 通常 在 硬件 中 实现 。 见 
15.3 节 。 

mailbox (邮箱 ) : 当 从 发 送 者 将 消息 传递 到 接收 者 时 ， 用 来 保存 IPC 消息 的 操作 系统 缓冲 。 

main entry point (AD A): 执行 开始 的 绝对 程序 模块 中 的 地 址 ， 在 C 程 序 中 ， 这 对 应 于 int main(arge, 
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argv[ ] ) 函 数 。 

major number ( 主 设备 号 ) : 见 device major number. 

MAR (memory address register， 存 储 地 址 寄存 器 ) : 一 个 装 有 某 个 单元 地 址 的 存储 单元 寄存 器 ， 从 而 实现 
对 该 存储 单元 的 顺序 读 或 写 。 

marshalling (解码 }: 它 的 任务 是 将 面向 语言 的 数据 结构 翻译 成 具体 设备 (通常 是 字 节 流 ) 的 格式 ， 这 是 通 、 
过 文件 管理 器 和 网 络 协议 来 完成 的 。 

masquerading (E7): 在 保护 机 制 中 ， 它 指 的 是 用 户 或 进程 绕 过 认证 机 制 的 情形 。 见 14.1 节 。 

maximum claim (最 大 需求 ) : 一 个 进程 在 它 的 事务 中 请 求 的 资源 数量 的 界限 。 最 大 需求 用 于 死 锁 避免 策略 中 。 

MDR (memory data register， 存 储 数据 寄存 器 ) : 一 个 装 有 准备 写 人 存储 器 的 数据 和 读 操作 后 得 到 数据 的 
存储 单元 寄存 器 。 

mechanism (机 制 ]: 操作 系统 的 功能 ， 它 利于 实现 不 同 的 策略 。 也 可 参照 policy。 

media access control (protocols) (媒体 访问 控制 ): 见 MAC, 

media translation (媒体 转换 ) : 在 网 络 中 ， 媒 体 转 换 指 的 是 这 种 情形 : 网 关 接 到 一 种 数据 链 路 层 帧 中 的 包 ， 
然后 将 这 些 包 发 送 到 不 同 数据 类 型 的 数据 链 路 层 帧 中 去 。 见 15.4 节 。 

medium-term scheduler (PAVE): 管理 主 存 分 配 。 

megabit (Mb): 大 约 百 万 个 位 ， 准 确 地 说 是 1 048 576 位 。 

megabyte (MB): 大 约 百 万 个 字 节 ， 准 确 地 说 是 1 048 576 字 节 。 

memory address register: 见 MAR. 

memory cycle (存储 周期 ): 需要 读 写 计算 机 主 存 的 时 间 。 

memory data register， 见 MDR。 

memory fragment (存储 碎片 ) : 一 块 主 存 ， 通 常 并 不 分 配给 某 个 进程 。 

memory hierarchy (存储 层次 ): 一 组 单个 的 存储 组 件 ， 在 层次 中 高 层 的 元 素 要 比 底层 的 元 素 更 快 、 更 小 更 
昂贵 。 

memory management (存储 管理 ) : 为 操纵 和 控制 计算 机 的 存储 硬件 ， 而 执行 的 创建 抽象 和 提供 机 制 的 任务 。 

memory management unit (存储 管理 单元 ): 如 果 目 标 被 加 载 到 主 存 中 ， 或 如 果 目 标 没有 被 加 载 到 主 存 中 引 
发 了 中 断 ， 将 虚拟 地 址 转换 成 物理 地 址 的 硬件 设备 。 见 12.3 节 。 

memory manager (存储 管理 器 ) : 见 memory management. 

memory-mapped file (存储 映射 文件 ) : 在 支持 虚拟 存储 器 的 系统 中 ， 线 程 可 以 将 文件 的 整个 内 容 映射 到 进 
程 虚拟 地 址 空间 中 去 。 f 

memory-mapped I/O (存储 映射 1/0): 一 种 设备 机 制 ， 软 件 可 通过 与 访问 存储 一 样 的 方法 来 访问 1/O 控制 
器 中 的 各 个 部 件 。 

memory-mapped resource (存储 映射 资源 }: 任何 的 抽象 机 器 资源 ， 其 接口 可 由 一 组 字 节 地 址 指定 。 例 如 ， 
如 果 操 作 系统 将 设备 接口 作为 一 组 字 节 寻 址 的 寄存 器 导出 ， 然后 设备 可 以 绑 定 到 进程 地 址 空间 中 ， 并 是 
一 个 存储 映射 资源 。 

memory state (存储 状态 ) ， 准确 的 定义 依赖 于 上 下 文 。 在 页 式 上 下 文中 (WS 12 章 )， 存储 状态 是 当前 被 
加 载 到 主 存 中 页 数目 的 集合 。 

message (消息 ) : 信息 单元 ， 由 操作 系统 IPC 机 制 将 其 从 一 个 地 址 空间 传递 到 另 -一 个 地 址 空间 。 

message digest (消息 摘要 ) : 一 个 数字 证 书 ， 通 过 加 密 内 容 和 数字 签名 的 精简 形式 计算 得 到 。 

message passing system call (消息 传递 系统 调用 ): 一 种 请 求 操作 系统 服务 的 机 制 ， 它 是 通过 发 送 消息 给 一 
个 操作 系统 进程 或 线程 而 不 是 执行 类 似 于 自 陷 的 功能 调用 。 

microcomputer ( 微 计算 机 ) : 今天 可 用 的 最 小 类 的 计算 机 ， 处 理 器 在 一 个 单个 的 集成 电路 上 实现 ( 微 处 理 器 )。 

microkernel ( 微 内 核 ): 在 一 些 操作 系统 设计 中 ， 操 作 系统 的 可 信 操 作 的 最 小 基本 功能 实现 在 一 个 称 为 微 
内 核 的 单独 模块 中 ， 其 余 的 操作 系统 功能 实现 在 微 内 核 的 客户 中 。 

microprocessor ( 微 处 理 器 ): 在 一 个 单个 的 集成 电路 芯片 上 实现 完全 的 汉 : 诺 依 曼 CPU, 

microsecond ( 微 秒 ) : 百 万 分 之 一 秒 。 

millisecond (%#)): 千 分 之 一 秒 。 
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minicomputer (小 型 机 ) : 早期 的 个 人 计算 机 (circa 1970). DEC PDP 11 小 型 机 是 用 来 实现 流行 的 UNIX 版 
本 的 第 一 台 计算 机 。 最 后 ， 小 型 机 意味 着 中 等 尺寸 的 计算 机 ， 适 合用 来 服务 一 个 部 门 ， 或 者 作为 一 个 网 
. 络 服务 器 。 

minor number (次 设备 号 ): 见 device minor number。 

missing page fault ( 缺 页 ): 见 page fault. 

MMU: J memory management unit. 

mobile code (移动 代码 ) : 指 的 是 需要 时 可 动态 从 网 络 源 下 载 的 软件 ， 并 且 在 完成 任务 之 后 就 会 被 销毁 ， 
Java applets 是 移动 代码 。 

mobile computer (移动 计算 机 ) : 物理 上 可 从 一 个 位 置 移动 到 另 一 个 位 置 ， 并 可 以 持续 操作 的 计算 机 。 移 动 
计算 机 的 例子 包括 手提 计算 机 、 个 人 数字 助理 以 及 蜂窝 电话 。 

mode bit (模式 位 ); 一 位 处 理 机 寄存 器 ， 可 以 设置 成 核心 态 或 用 户 态 。 如 果 模 式 位 被 设置 成 核心 态 ， 处 理 
机 可 以 执行 指令 系统 中 的 全 部 指令 ， 如 果 模 式 位 被 设置 成 用 户 态 ， 处 理 机 仅 可 执行 机 器 指令 的 一 个 子 集 。 

modem (modulator-demoduiator， 调 制 解 调 器 ) : 将 数字 信号 转换 成 模拟 信号 以 及 将 模拟 信号 转换 成 数字 信 
号 的 一 种 通信 设备 ， 调 制 解 调 器 用 来 将 计算 机 连接 到 电话 网 络 上 ， 使 得 数字 信息 可 以 在 计算 机 间 传 输 ， 
计算 机 使 用 调制 解 调 器 来 连接 到 模拟 声音 网 络 中 。 

modular kernel (模块 化 内 核 ); 参见 modular organization. 

modular organization (模块 化 组 织 结构 ) : 一 种 软件 机 制 ， 它 将 功能 分 解 成 若干 逻辑 上 独立 的 组 成 部 分 ， 在 
相关 的 模块 间 有 良 定义 的 接口 。 

module (Linux) (模块 ): Linux 模块 是 一 个 独立 构建 的 软件 模块 ， 可 以 被 动态 加 载 到 内 核 中 ， 模块 通常 情 
况 下 用 来 实现 设备 驱动 程序 ， 如 果 它 们 满足 由 内 核 导 出 的 元 API 规范 ， 它们 可 以 实现 任何 想 要 的 功能 。 

monitor ( 管 程 ): 可 以 被 多 个 进程 使 用 的 一 个 抽象 数据 类 型 ， 管 程 一 次 仅 允许 一 个 进程 或 线程 使 用 管 程 。 

monolithic kernel (单一 内 核 ) : 见 monolithic organization. 

monolithic organization ( 单 块 结构 ) ; 一 种 软件 结构 ， 它 将 所 有 软件 和 数据 结构 放 和 一个 逻辑 模块 中 ， 在 软 
件 的 各 个 部 分 间 无 明确 的 接口 。 

multi queue (多 级 队列 ) : 见 multiple level queue. 

multicomputer (多 计算 机 系统 ) : 一 组 由 单个 的 冯 ' 庶 依 曼 机 器 通过 高 速 网 络 互 连 而 成 的 多 处 理 机 机 器 。 

multidrop network (多 点 网 络 }: 可 以 在 网 络 的 任 两 个 结 点 间 进 行 信息 交换 的 网 络 。 

multidrop packet network 【多 点 报 文 网 络 ) : 见 multidrop network 和 packet network. 

multiple-level feedback queue (多 级 反馈 队列 ) : 一 个 多 级 队列 ， 作业 随 着 属性 值 的 改变 会 改变 队列 级 别 。 

multiple-level queue (多 级 队列 ): 将 线程 作为 组 来 调度 的 剥夺 式 调 度 策略 ， 这 取决 于 线程 的 优先 级 ， 具 有 
相同 优先 级 的 所 有 线程 被 保存 在 队列 中 ， 多 个 优先 级 的 存在 使 得 这 个 策略 使 用 多 个 等 候 队 列 。 

multiplexing, space ( 空 分 多 路 复 用 ) : 共享 资源 的 一 种 方法 。 它 将 资源 分 割 成 较 小 的 部 分 分 配给 不 同 的 进 
程 ， 在 任意 时 刻 ， 各 个 进程 单独 控制 使 用 分 配 的 资源 。 

multiplexing, time (时 分 多 路 复 用 ) ; 共享 资源 的 一 种 方法 。 它 将 整个 资源 轮流 分 配给 各 个 进程 使 用 一 个 
时 间 片 ,在 任意 时 刻 ， 某 个 进程 单独 控制 使 用 整个 资源 。 

multiprocessing (多 道 处 理 ) : 结合 两 个 或 多 个 处 理 机 进行 处 理 的 计算 机 体系 结构 。 

multiprogramming (多 道 程序 设计 ): 一 种 进程 管理 方式 ， 它 将 多 个 程序 同时 载 信 内存 ， 通过 低级 调度 ， 在 
进程 间 时 分 复 用 处 理 机 而 执行 多 道 程 序 。 

multitasking (多 任务 ) : Jl multiprogramming。 

multithreaded computation (多 线程 计算 ): 多 个 实体 同时 执行 一 个 计算 ， 在 现代 系统 中 ， 多 线程 常常 指 的 
是 这 种 情况 : 有 一 个 现代 进程 ， 其 中 有 多 个 线程 在 执行 。 见 第 2 章 和 第 6 章 。 

mutual exclusion (EF): 两 个 或 多 个 处 理 机 合作 ， 从 而 在 一 个 时 刻 内 只 有 一 个 处 理 机 获得 访问 共享 资源 

(或 临界 区 )。 


N 
name space (名 字 空 间 ) : 源 程序 中 使 用 的 符号 名 的 集合 ， 当 程序 被 编译 器 和 链接 编辑 器 转换 成 绝对 映像 
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时 ， 名 字 空 间 中 的 每 个 符号 名 被 转换 成 一 个 地 址 。 

named pipe (命名 管道 ) : 见 pipe。 

name registry (FEM): 将 名 字 映 射 到 因特网 地 址 的 一 项 网 络 服务 。 见 15.6 节 。 

name server (名 字 服 务 器 ) : Ji, name registry. 

nanosecond (ME): 十 亿 分 之 一 秒 。 

network communication protocol (网 络 通信 协议 ) : 见 protocol, 

network interface controller (网 络 接口 控制 器 ) : 见 NIC. 

network layer (网 络 层 ): 一 个 ISO OSI 网 络 体系 层 ， 它 定义 了 设施 来 寻 址 远程 网 络 上 的 主机 ， 并 提供 了 在 
一 组 网 络 上 路 由 网 络 报 文 的 设施 ， 可 以 将 其 发 送 到 远程 网 络 上 的 主机 。 

network operating system (网 络 操作 系统 ) : 设计 来 管理 网 络 上 大 量 主机 的 操作 系统 ， 主 机 位 置 透明 性 并 不 
是 系统 的 目标 。 见 19.6 节 。 - 

network protocol (网 络 协议 ) : 见 protocol. 

NIC (network interface controller， 网 络 接口 控制 器 ) : NIC 是 用 来 把 计算 机 连接 到 数据 通信 子 网 的 设备 控 
制 器 ， 例 如， 计算 机 连接 到 以 太 网 上 会 包含 一 个 以 太 网 NIC。 见 15.1 节 。 

nonblocking receive ( 非 阻塞 接收 ) : 一 个 IPC 接收 操作 ， 接 收 线程 /进程 轮 询 它 的 接收 端口 来 确定 信息 是 否 
被 传输 给 它 ， 但 是 并 不 在 这 个 操作 上 阻塞 。 

nondeterminate (不 确定 性 ) : 重复 执行 一 个 并 行程 序 而 不 能 确保 得 到 相同 结果 的 状态 。 造 成 的 差别 是 由 于 
程序 中 各 个 进程 访问 临界 区 的 次 序 可 能 不 同 。 

nonpreemptive scheduling ( 非 剥 夺 调 度 ) : 采用 时 分 复 用 技术 的 处 理 机 的 调度 策略 ， 一 个 进程 不 释放 它 占 有 
的 处 理 机 直到 它 完成 工作 。 

nonuniform memory access: 参照 NUMA。 

NT Executive (NT 执行 体 ) : 实现 在 NT 内 核 之 上 的 操作 系统 的 一 部 分 (在 核心 态 执 行 )， 它 提供 了 传统 的 
抽象 线程 、 进 程 和 资源 。 

NT Kernel (NT 内 核 ) : 在 Windows NT/2000/XP 中 ， 实 现 了 基本 的 低级 硬件 抽象 ， 包 括 中 断 处 理 和 线程 

调度 。 

NT subsystem (NT 子 系统 ): NT 执行 体 的 用 户 空间 扩展 ， 可 以 用 来 定义 不 同 的 操作 系统 (包括 Win32、 
Winl6, OS/2 以 及 其 他 的 操作 系统 ) 以 及 操作 系统 的 其 他 关键 组 件 (如 保护 机 制 )。 

NUMA (nonuniform memory access， 非 均匀 存储 访问 ) : 计算 机 体系 结构 中 使 用 多 个 存储 模块 的 一 种 方式 ， 
它 使 每 个 处 理 机 可 以 访问 每 个 存储 模块 ， 而 访问 时 间 随 处 理 机 与 存储 模块 的 关系 而 变化 。 


O 


object (IR): 抽象 数据 类 型 类 的 实例 。 对 象 响 应 外 部 消息 ， 每 个 消息 引起 对 象 运行 一 种 方法 ， 该 方法 可 
以 流向 其 他 的 方法 或 者 执行 类 中 专 有 的 一 段 代码 。 

object, protection (对 象 ， 保 护 ) : 在 保护 模型 中 ， 保 护 对 象 (简称 为 对 象 ) 是 系统 的 一 个 被 动 元 素 ， 可 以 
被 主体 对 象 访问 。 

one-time password (一 次 性 密码 ) : 每 次 用 户 登 录 进 系统 时 需要 不 同 密码 的 用 户 认 证 机 制 。 见 第 14 章 。 

one-way function ( 单 向 函数 }; 一 个 函数 /， 它 易于 计算 (y= f(x) 容易 计算 )， 但 是 它 的 反 转 很 难 确定 
(也 就 是 说 ， 当 你 知道 y 值 时 ， 很 难 计算 z= 广 ! (y))。 

operating system (操作 系统 ) : CPU 在 核心 态 下 操作 的 系统 软件 的 一 部 分 。 

optimal schedule (最 优 调度 ) : 有 最 少 完成 时 间 的 任何 调度 (常常 是 CPU 调度 )。 

OS: 见 operating system. 

OSI: 见 ISO OSI. 

output buffer (输出 缓冲 ) 见 buffer. 

output device (输出 设备 ) : 用 来 从 计算 机 中 导出 信息 的 周边 设备 ， 输 出 设备 的 例子 是 显示 器 、 打 印 机 和 数 
字 放 映 机 。 
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P 


packet ( 报 文 ) : 现代 通信 子 网 中 信息 传输 的 单位 ， 一 个 报 文 的 大 小 在 8 字 节 到 8K 字 节 之 间 。 

packet network ( 报 文 网 络 ) : 信息 作为 字 节 块 来 传递 的 子 通 信和 网 络 ， 每 个 信息 块 被 称 为 一 个 报 文 ,大 多 数 
的 现代 数字 网 络 是 报 文 网 络 。 

page (Ti): 在 虚拟 存储 系统 中 ， 页 是 主 存 和 辅 存 间 的 固定 大 小 的 传递 单元 。 

page fault ($A): 在 页 式 虚 拟 存 储 系统 中 ， 一 个 事件 〈 常 常 是 自 陷 ) 指 的 是 线程 访问 了 当前 并 没有 被 加 
载 到 主 存 中 的 页 。 

page frame (FW): 被 分 配 来 保存 页 的 主 存单 元 。 

page frame number (WMS): 主 存 被 分 成 大 量 的 页 帧 ， 每 个 页 帧 用 一 个 页 帧 号 来 寻 址 。 

page reference stream (页 访问 流 ): 在 线程 执行 期 间 ， 被 线程 访问 的 页 号 的 顺序 。 

page table (TAR): 将 页 号 变换 为 页 帧 地 址 的 一 种 转换 机 制 。 

paging (页 式 ) : 一 种 形式 的 虚拟 存储 器 ， 地 址 空间 的 固定 大 小 的 块 在 主 存 和 辅 存 间 传递 。 

paging disk: Ji. paging file. 

paging file (页 文件 ) : 保存 有 虚拟 地 址 空间 内 容 的 辅 存单 元 ， 来 自 让 而 训 度 文件 的 被 庶 拟 存储 管理 器 加 载 。 

paging policy (页 面 调度 策略 ): 确定 页 何 时 被 加 载 和 印 载 的 策略 ， 以 及 哪个 页 帧 用 于 操作 ， 见 12.4 节 和 
12.5 节 。 

parallel execution (并 行 执行 ); 表示 计算 机 可 以 同时 执行 两 个 或 多 个 进程 。 

password (口令 ): 用 户 输入 的 一 串 字符 ， 用 于 计算 机 认证 用 户 的 登录 身份 。 

PBR (过 程 基 址 寄存 器 ) : 意味 着 procedure base register, J code base register. 

PC { 程 序 计数 器 /个 人 计算 机 ) : PC 有 两 个 广泛 应 用 的 意义 。 一 个 典型 的 含义 是 指 “ 程 序 计 数 器 ”寄存 器 ， 
它 在 控制 单元 中 ， 它 包含 下 一 条 要 执行 的 指令 的 存储 地 址 。 在 商业 中 ， 另 一 一 个 更 为 流行 的 含义 是 指 “ 个 
人 计算 机 ”"， 尤 其 是 IBM PC 机。 

peer-to-peer (Xİ): 在 计算 机 网 络 中 ， 它 指 的 是 使 用 一 个 特定 的 协议 在 不 同 的 实体 间 协 作 ， 例 如 ， 电 子 
邮件 程序 可 以 用 SNMP 邮件 协议 进行 通信 。 

personal computer (个 人 计算 机 ) : 一 次 供 一 个 人 使 用 的 计算 机 ， 也 见 workstation. 

PGP: 见 Pretty Good Privacy. 

physical layer (物理 层 ) : 用 于 网 络 通信 的 ISO OSI 网 络 体系 模型 的 最 低层 ， 它 定义 了 主机 上 的 进程 如 何 发 
送 和 接收 信息 字 节 以 及 主机 如 何 交换 字 节 。 

physical record (物理 记录 ): 面向 块 IMO 设备 的 IMD 单 元， 物理 记录 是 一 个 块 。 

PID: 见 process identifier, 

pipe (管道 ) : UNIX 机 制 ， 用 来 将 信息 作为 字 节 流 来 从 一 个 进程 传递 到 另 一 个 进程 。 管 道 使 用 文件 接口 ， 
无 名 管道 可 在 一 组 紧密 相关 的 进程 间 共 享 ， 而 有 名 管道 可 被 机 器 上 的 任何 进程 使 用 。 兄 第 9 章 。 

pipeline stage (流水 段 ) : 流水 计算 将 计算 分 成 N 个 不 同 的 部 分 ， 每 一 个 称 为 段 ， 计 算 通 过 顺序 的 N 个 段 
来 完成 。 然 而 ， 每 个 段 可 与 其 他 段 并 行 工作 来 处 理 不 同 的 计算 。 

placement policy (放置 策略 ) : 在 页 的 调度 中 ， 决 定 取 到 的 页 放置 在 主 存 的 什么 位 置 。 

plaintext (RAX): Hl clear text. 

point-to-point (communication) (点 到 点 通信 ): 一 个 计算 机 与 另 一 个 计算 机 建立 连接 的 通信 技术 。 例 如 ， 
在 两 台 计 算 机 间 建 立 一 个 电话 电路 ， 然 后 就 可 以 在 这 个 连接 上 进行 通信 。 

policy (MH): 资源 管理 的 特定 框架 ， 它 不 依赖 于 具体 的 实现 该 策略 的 方法 。 也 可 参照 mechanism。 

policy rules (策略 规则 ): 在 第 14 章 的 保护 模型 中 ， 策 略 规则 控制 不 同 保护 状态 的 转换 。 

polling ( 轮 询 ) :一 种 软件 技术 ， 代 码 使 用 一 个 循环 来 对 条 件 反 复 进 行 测试 。 在 轮 询 IMO 中 ， 软 件 反复 地 
测试 设备 状态 来 确定 1/O 操作 何 时 完成 。 

POSIX: 见 POSIX API, 

POSIX API: 不 同 软件 包 的 一 个 标准 接口 。 更 具体 地 说 ，POSIX.1 规范 是 一 个 操作 系统 系统 调用 接口 ， 通 
常情 况 下 ，POSIX API 指 的 是 POSIX.1 API。 
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POST (power on self test, HABA RZ): 加载 到 ROM 中 的 一 个 程序 ， 只 要 计算 机 一 ， 这 个 程序 就 
会 执行 ， 在 操作 系统 被 安装 之 前 ，POST 包含 了 诊断 程序 来 测试 硬件 。 

precedence (优先 ) : 计算 单元 之 间 的 优先 指定 了 它们 的 执行 顺序 。 

preemptive scheduling (剥夺 式 调度 ) : 采用 时 分 复 用 的 处 理 机 的 一 种 调度 策略 ， 当 一 个 高 优先 级 的 进程 准 
备 好 执行 时 ， 正 在 运行 的 进程 需要 从 处 理 机 中 移出 。 

prefetch policy (ARRAS): 一 种 调 页 策略 ， 在 某 些 页 还 没有 被 使 用 时 ， 系 统 就 先 将 它们 调 人 。 

presentation layer (RARE): ISO OSI 网 络 体系 结构 的 一 层 ， 它 的 功能 是 将 一 个 域 的 数据 转换 成 另 一 个 域 
可 以 识别 的 形式 。 

Pretty Good Privacy: 一 个 流行 的 、 公 开 的 密 钥 加 密 方法 ，PGP 使 用 128 位 的 公 钥 和 私 钥 。 见 14.4 节 。 

prevention (预防 ) ;一 种 死 锁 处 理 策略 ， 它 保证 在 任何 时 间 破 坏 造 成 死 锁 的 四 个 条 件 之 一 。 

primary memory ( 主 存 ) : 处 理 机 可 以 直接 寻 址 的 存储 器 。 

priority (优先 级 ) : 表示 线程 竞争 资源 (常常 是 CPU) 时 优先 级 的 一 个 数字 。 只 要 线程 存在 ， 静 态 优 先 级 
就 不 会 改变 ， 但 在 动态 优先 级 的 条 件 下 ， 优 先 级 可 能 会 根据 操作 系统 中 的 条 件 而 改变 。 

priority scheduling (优先 级 调度 ) : 依赖 于 线程 外 部 优先 级 的 调度 策略 。 

primary memory ( 主 存 ): 冯 : 诺 依 曼 计 算 机 中 的 用 来 保存 程序 和 数据 的 存储 器 ， 它 们 可 以 被 CPU 访问 ， 也 
称 为 可 执行 存储 器 。 

primary memory interface ( 主 存 接口 ): 主 存 的 硬件 接口 ， 见 第 4 章 。 

private key encryption (私有 密 钥 加 密 ) : 一 种 加 密 技术 ， 其 中 加 密 和 解密 密 钥 是 秘密 的 ， 与 public key en- 
cryption 相 比 。 

privileged instruction (特权 指令 ): 只 有 在 处 理 机 处 于 管理 模式 下 才能 运行 的 指令 。1/O 指令 和 那些 影响 保 
护 机 制 的 指令 为 特权 指令 ， 而 其 他 的 为 普通 指令 。 

procedure base register: 见 code base register。 

process (classic) (传统 进程 }， 一 个 在 冯 : 诺 依 曼 计 算 机 上 执行 的 串 行 程序 

process (modern) (现代 进程 ): 为 线程 定义 了 执行 环境 的 操作 系统 抽象 ， 进 程 被 分 配 资源 ， 如 地 址 空间 、 
文件 、 存 储 器 等 ， 线 程 是 使 用 相关 的 进程 资源 来 执行 的 。 

process descriptor (进程 描述 表 ) : 操作 系统 保持 管理 进程 所 有 信息 的 数据 结构 。 

process identifier (进程 标识 符 ) : 在 进程 执行 期 间 对 进程 的 唯一 访问 。 

process management (进程 管理 ) : 用 于 生成 进程 抽象 以 及 提供 操作 进程 的 机 制 。 

process name space (进程 名 字 空 间 ) : 进程 的 一 组 名 字 ， 进 程 中 的 任何 线程 可 以 使 用 它 来 访问 不 同 的 进程 ， 
这 和 OS PID 一 样 简单 。 

process status (进程 状态 ) : 操作 系统 记录 的 当前 执行 进程 的 细节 情况 。 

process status register (进程 状态 寄存 器 ) : 当 相 应 的 进程 在 执行 时 ， 保 存在 CPU 寄存 器 中 的 处 理 机 状态 的 
一 个 简化 版 本 。 

processor (处 理 机 ): 计算 机 中 的 计算 部 件 ， 它 由 控制 从 主 存 中 取 程序 指令 和 译 码 的 控制 部 件 和 执行 算术 
和 逻辑 运算 的 ALU 组 成 。 

program (程序 ): 能 够 被 进程 顺序 执行 的 指令 序列 。 

program counter: 参照 PC。 

program text (程序 正文 ) : 处 于 可 执行 状态 的 程序 的 指令 序列 。 

programmable interval timer (可 编程 间隔 计时 器 ): 当 一 个 特定 的 时 间 结束 后 产生 _ 个 中 断 的 硬件 装置 时 
间 周 期 由 软件 编程 决定 。 

protected instruction (保护 指令 ); JL privileged instructions 

protected space (保护 空间 ) ， 见 supervisor space. 

protection domain (保护 域 ) : 一 个 运行 环境 ， 它 决定 了 一 个 进程 所 有 的 访问 权限 的 集合 。 

protection mechanism (保护 机 制 ) : 操作 系统 中 用 来 施加 隐私 的 工具 和 环境 ， 见 mechanism, 

protection object (保护 对 象 ) AL object protection. 

protection rights (保护 权限 ) ; 在 一 个 特定 的 保护 域 中 ， 进 程 所 施加 的 资源 访问 权限 。 
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protected space (保护 空间 ) 见 system space. 

protection state (保护 状态 ) : 所 有 保护 主体 对 所 有 保护 对 象 的 集体 访问 许可 。 

protection system (保护 系统 ) : 表示 所 有 这 类 系统 的 基本 方面 的 保护 机 制 和 安全 策略 的 模型 ， 见 14.3 节 。 

protocòl (Hix): 在 一 组 进程 间 有 关 编 码 信息 如 何 被 解释 的 协定 ， 协 议 被 使 用 在 IPC 机 制 中 以 及 网 络 上 的 
主机 间 。 

protocol stack (协议 栈 ): ISO OSI 体系 结构 为 网 络 协议 描述 了 一 个 框架 ， 层 实现 中 的 任何 实例 称 为 协议 栈 。 

protocol translation (协议 转换 ): 在 网 络 中 ， 协 议 转换 指 的 是 网 关 使 用 一 种 协议 接收 报 文 的 情形 ， 但 是 使 
用 不 同 的 协议 来 转发 报 文 。 见 15.4 节 。 

public key encryption ( 公 钥 加 密 }: 使 用 一 个 私 钥 和 公 钥 的 加 密 技术 ， 用 公 和 钥 加 密 的 信息 仅 可 用 私 钥 解 密 ， 
用 私 钥 加 密 的 信息 仅 可 用 公 负 解密 。 


R 


race condition (竞争 状态 ): 两 个 或 多 个 进程 以 相对 独立 的 速度 各 自 执行 自己 的 程序 的 行为 状态 ， 竞 争 可 能 
会 使 两 个 进程 争夺 进入 临界 区 或 引起 死 锁 。 

RAM (random access memory， 随 机 访问 存储 器 }:; 用 于 实现 可 执行 存储 器 的 主导 存储 技术 。 

randomly accessed storage device: 参照 random device. 

random device (随机 访问 设备 ): 驱动 器 可 以 访问 任何 块 而 不 依赖 于 它 所 访问 过 的 块 的 存储 设备 。 与 之 相 
对 应 的 是 顺序 访问 设备 。 磁 盘 驱动 器 就 是 一 个 随机 访问 设备 的 例子 。 

random replacement (随机 蔡 换 ): 从 主 存 中 随机 选择 页 将 其 移出 的 一 种 页 替换 策略 。 

RDA: 见 remote disk application。 

read-only memory (只 读 存 储 器 ) : JL ROM. 

read-write head ( 读 一 写 头 ): 一 个 字 节 流 文件 中 的 访问 点 ; 或 对 一 个 辅 存 设备 进行 读 写 操作 的 机 制 。 

reconfigurable device driver (可 重 配 置 的 设备 驱动 程序 ) : 操作 系统 设计 的 一 种 策略 ， 它 允许 一 个 驱动 程序 
加 入 操作 系统 中 运行 ， 而 无 需 重新 编译 和 重新 链接 操作 系统 模块 。 

ref table: Ji) reference table, 

reference bit (访问 位 ): 页 表 的 每 个 表 项 中 的 一 个 标志 位 ， 当 任 一 页 调 人 时 清 位 ， 而 当 特 定 页 被 引用 时 设 
置 。 在 页 面 蔡 换 中 ， 自 从 上 次 缺 页 错 起 ， 任 一 引用 位 被 置 位 的 页 都 被 引用 过 。 

reference table (访问 表 ) : 编译 器 产生 的 一 张 表 ， 它 包含 了 可 重 定位 模块 访问 的 外 部 符号 ， 但 是 这 些 符号 
在 一 些 其 他 的 可 重 定位 模块 中 被 定义 了 。 

relocatable object module ( 可 重 定位 目标 码 模块 ) : 一 个 源 程序 模块 经 编译 器 编译 或 者 其 他 源 语 言 翻译 器 翻 
译 而 生成 的 模块 。 

relocation register ( 重 定位 寄存 器 ) : 一 种 CPU 寄存 器 ， 加 载 了 包含 程序 的 存储 块 起 始 的 主 存 地 址 ， 当 程序 
被 执行 时 ， 重 定位 寄存 器 的 内 容 被 加 载 到 有 效 地 址 中 。 见 11.4 节 。 

remote disk (远程 磁盘 ): 可 以 使 应 用 读 写 远程 机 器 上 的 磁盘 存储 设备 的 技术 ， 见 16.2 节 。 

remote disk application (远程 磁盘 应 用 ): 这 是 远程 磁盘 系统 上 的 服务 器 软件 ， 见 16.2 节 。 

remote file client (远程 文件 客户 ): 这 是 客户 文件 管理 器 的 文件 系统 相关 部 分 ， 它 是 与 远程 文件 服务 器 交 
互 的 文件 管理 器 的 一 部 分 。 见 16.1 节 。 

remote file server (远程 文件 服务 器 ) ; 这 是 与 远程 文件 客户 交互 的 远程 文件 服务 器 上 的 服务 ， 它 用 来 管理 
远程 服务 器 上 的 辅 存 使 得 它 就 像 文件 系统 一 样 。 

remote memory (远程 存储 器 ) : 在 分 布 式 存储 器 设计 中 ， 人 逻辑 主 存 通过 对 通常 的 汉 ' 诺 依 曼 主 存 接 口 的 扩 
展 来 实现 共享 远 地 主 存 。 见 17.2 节 。 

Remote Method Invocation (远程 方法 调用 ) ， 见 RMI . 

remote object (远程 对 象 ) : 对 象 在 不 同 的 机 器 上 实例 化 的 分 布 式 计算 范式 ， 但 是 它们 仍然 可 以 通过 调用 位 
于 远程 机 器 上 的 对 象 的 方法 进行 交互 。 见 17.4 节 。 

remote procedure call (远程 过 程 调 用 ) : 见 RPC. 

replacement policy (替换 策略 ): 当 所 有 的 页 帧 全 满 时 ， 确 定 从 主 存 中 移 除 哪 页 的 页 面 调度 策略 。 
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resource (资源 ): 可 由 程序 访问 的 任何 虚拟 机 元 素 ， 它 被 显 式 地 分 配给 进程 使 得 可 以 执行 程序 。 当 请 求 的 
资源 不 可 用 时 ， 发 出 请 求 的 进程 /线程 会 挂 起 直到 资源 变 得 可 用 。 在 抽象 的 最 低层 次 上 ， 机 器 资源 包括 
了 它 的 硬件 组 件 。 

resource abstraction (资源 抽象 ) : 隐藏 了 底层 机 器 细节 的 操作 系统 属性 ， 这 样 ， 应 用 程序 员 可 以 不 用 知道 
这 些 细节 就 可 以 使 用 机 器 。 

resource descriptor (资源 描述 表 ) : 用 来 保存 有 关 资 源 状 态 和 特征 所 有 信息 的 操作 系统 数据 结构 。 

resource identifier (资源 标识 符 ) : 在 线程 存在 期 间 ， 对 线程 的 唯一 引用 。 

resource isolation (资源 隔离 ): 确保 并 发 程序 的 执行 并 不 使 得 单个 的 程序 间 相 互 干扰 的 一 种 系统 软件 任务 。 

resource management (资源 管理 ) : 创建 资源 抽象 并 为 操纵 和 控制 资源 提供 机 制 的 任务 。 

resource queue (资源 队列 ): 保持 阻塞 在 一 个 特定 资源 上 的 一 列 线程 /进程 的 操作 系统 数据 结构 。 

response time (响应 时 间 ): 用 户 对 一 个 交互 式 系统 发 出 命令 到 系统 开始 对 命令 作出 响应 间 的 时 间 量 。 

reusable resource (可 重用 资源 ) : 可 以 分 配给 进程 的 资源 ， 当 使 用 一 段 时 间 后 必须 释放 该 资源 并 交 回 资源 
管理 器 。 一 个 系统 配置 有 固定 数目 的 可 重用 资源 。 

reusable resource raph (可 重用 资源 图 ): 一 个 死 锁 检测 模型 ， 它 表明 系统 对 可 重用 资源 的 分 配 状 态 。 

rights (权限 ) 见 protection rights. 

rights amplification (权限 扩大 ); 一 个 进程 从 一 个 域 变换 到 另 一 个 可 以 使 它 获得 更 多 访问 权限 的 域 的 情形 。 

ring architecture ( 环 体系 结构 ) : 有 一 个 全 排序 保护 域 的 操作 系统 组 织 结构 。 见 第 14 章 。 

ring gatekeeper ( 环 看 守 者 ): 在 环 体系 结构 中 的 人 口 点 授权 监控 程序 。 

RMI (Remote Method Invocation， 远 程 方法 调用 ) : 在 支持 分 布 式 对 象 的 语言 和 系统 中 ，RMI 对 象 用 来 调 
用 远程 对 象 中 的 方法 。 

rollback ( 回 退 ) : 从 进程 以 前 的 计算 点 (最 近 的 检查 点 ) 重新 开始 运行 的 行为 。 回 退 的 结果 就 好 像 进程 自 
最 近 检 查 点 后 没有 做 任何 计算 一 样 。 

ROM (read only memory， 只 读 存 储 器 ) : 一 种 类 型 的 存储 器 ， 在 安装 到 计算 机 之 前 ， 它 的 内 容 已 被 一 个 专 
门 的 设备 写 人 人 了。 一旦 ROM 被 安装 ， 计 算 机 就 可 以 对 其 内 容 进 行 读 取 而 不 能 重 写 它 的 内 容 ， 当 计算 机 
关闭 时 ， 存 储 器 内 容 也 会 一 直 存 在 。 

root directory (RAR): 一 个 层次 文件 集合 的 根 ， 从 根 目录 到 文件 系统 中 所 有 其 他 的 文件 和 目录 有 -…- 条 路 径 。 

round robin (369%): 在 请 求 处 理 器 的 所 有 线程 之 间 公平 地 分 配 处 理 时 间 的 剥夺 式 调度 策略 。 

routing (路 由 ): 在 网 络 中 ， 路 由 是 一 台 主 机 将 信息 从 源 主 机 转发 到 目的 主机 的 过 程 。 见 15.4 节 。 

RPC (远程 过 程 调用 ) : 远程 过 程 调 用 是 一 个 网 络 协议 ， 它 使 得 客户 软件 可 以 调用 远程 服务 器 上 的 过 程 ， 
并 能 在 远程 机 器 执行 完成 之 后 ， 使 用 过 程 调用 的 结果 。 见 17.3 节 。 

RR: 见 (round robin). 

runtime (运行 时 ) : 程序 执行 时 ， 程 序 管理 的 一 个 阶段 ， 这 个 术语 也 是 运行 时 系统 的 一 个 简写 。 

runtime library (运行 时 库 ) J runtime system. 

runtime system (运行 时 系统 ) : 执行 线程 调用 的 一 组 用 户 空间 函数 ， 它 提供 了 一 组 系统 服务 ， 但 不 是 操作 
系统 服务 。 例 如 ，C 库 有 一 组 C 程序 员 使 用 的 运行 时 函数 。 


S 


safe state (安全 状态 ) : 一 个 系统 状态 ， 资源 管理 器 可 以 选择 一 种 策略 来 确保 系统 不 会 进入 死 锁 状 态 ， 它 在 
死 锁 避免 方法 中 使 用 。 见 10.4 节 。 

SBR: J stack base register. 

SCC (small communication computer， 小 型 通信 计算 机 ) : 在 物理 上 是 小 包装 的 计算 机 ， 但 是 包含 了 一 个 网 
络 接口 ，SCC 的 例子 是 掌上 电脑 、 个 人 数字 助理 和 电视 机 顶 盒 。 

scheduler (调度 程序 ) : 管理 处 理 机 分 配 的 操作 系统 组 件 。 

scheduling mechanism (调度 机 制 ) : 调度 机 制 确定 进程 管理 器 如 何 确定 何 时 复 用 CPU, 以 及 线程 如 何 从 处 
理 机 上 分 配 和 移 除 。 

scheduling policy (调度 策略 ) : 调度 策略 确定 何 时 将 进程 从 CPU 上 移 除 ， 以 及 为 哪个 就 绪 进 程 分 配 CPU, 
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schema { 模式) ， 在 数据 库 管理 系统 中 ， 存 储 系统 中 数据 结构 的 一 种 规范 。 

SCSI (small computer serial interface， 小 型 计算 机 串 行 接口 ) : 外 设 与 控制 器 之 间 的 一 种 工业 标准 接口 。 

secondary memory ($F): 以 块 为 单位 通过 LILO 指令 访问 和 寻 址 的 存储 器 。 例 如 ， 磁 盘 和 磁带 设备 就 是 辅 存 。 

sector (HE): 将 一 个 磁道 划 成 块 的 旋转 媒体 〈 如 磁盘 ) 的 角度 分 法 。 

security policy (安全 策略 ) : 一 种 想 要 的 隐私 能 见 度 的 规范 说 明 。 也 见 policy. 

seek time, disk ( 寻 道 时 间 ， 磁 盘 ); 在 旋转 存储 设备 中 ， 移 动 读 / 写 头 到 目标 磁道 所 需 的 时 间 。 

segment (Bt): 在 段 式 虚拟 存储 系统 中 ， 主 存 和 辅 存 系统 间 的 传输 单元 。 

segment descriptor ( 段 描 述 表 ) : 段 表 中 的 一 个 表 项 ， 它 包含 有 段 的 基 址 、 一 个 段 的 长 度 以 及 保护 位 信息 。 

segment table (BR): 在 段 式 虚 存 系统 中 ， 将 符号 段 名 转换 成 主 存 中 的 段 地 址 的 一 个 表 。 

segment table register ( 段 表 寄存 器 ) : 在 段 式 虚 拟 存储 系统 中 ， 这 是 一 个 指向 段 描述 符 的 CPU 寄存 器 。 

segmentation (fe): 一 种 形式 的 虚拟 存储 器 ， 其 中 可 变 大 小 的 地 址 空间 块 在 主 存 和 辅 存 间 来 回 传输 。 

semaphore (信号 量 ) : 包含 了 一 个 非 负 整 型 变量 的 一 种 抽象 数据 类 型 ， 可 用 了 操作 和 V 操作 来 测试 和 设置 
这 个 变量 ， 在 现代 操作 系统 中 信号 量 是 基本 的 同步 ( 见 第 8 章 )。 

sequential computation (顺序 计算 ): 顺序 程序 的 串 行 执行 ， 这 表示 计算 的 一 个 单个 线程 。 

sequential device (顺序 设备 ) : 以 块 为 物理 存储 单位 的 存储 设备 ， 因 此 访问 第 i 块 后 才能 访问 第 :+1 块 。 
磁带 机 就 是 一 个 顺序 设备 。 

sequential program (顺序 程序 ) : 一 个 顺序 算法 的 程序 编码 ，C 和 C++ 程序 就 是 顺序 程序 。 

sequential write sharing (MASHER): 在 远程 文件 服务 器 中 ， 如 果 块 是 只 读 的 ， 顺 序 写 共享 策略 需要 块 被 
缓存 到 服务 器 中 ， 一 个 客户 一 时 仅 能 包含 一 个 可 写 的 拷贝 。 见 16.3 节 。 

sequentially accessed storage device: 参照 sequential device. ， 

serial execution semantics (顺序 执行 语义 ) : 这 指 的 是 程序 设计 语言 和 系统 的 特征 ， 程 序 中 的 每 个 语句 在 它 
的 后 继 执 行 之 前 必须 完成 。 

serially reusable resource (顺序 可 重用 资源 ): 见 reusable resource, 

server (服务 器 ): Ji, server process, 

server process (服务 器 进程 ) : 响应 一 个 客户 进程 的 服务 请 求 而 生成 的 进程 。 

server stub (服务 器 存根 ) : 一 个 RPC (远程 过 程 调用 ) 系统 的 组 成 部 分 ， 它 接收 从 客户 存根 来 的 RPC， 执 
行 相应 的 过 程 ， 并 将 执行 结果 返回 给 客户 存根 。 

service time (服务 时 间 ) : 一 个 进程 从 获得 CPU 处 于 执行 状态 ， 直 到 完成 执行 的 时 间 。 

session layer (会 话 层 ) : ISO OSI 网 络 体系 结构 中 的 一 层 ， 它 提供 管理 在 传输 层 实现 的 虚 电 路 的 功能 ， 它 也 
可 以 实现 通信 的 替代 形式 ， 如 RPC. 

shared memory multiprocessor (共享 存储 器 的 多 处 理 机 ) : 一 种 多 处 理 机 结构 ， 每 个 处 理 机 都 可 以 通过 互 连 
网 访问 存储 器 的 每 个 单元 。 

sharing (共享 ) : 根据 为 操作 系统 定义 的 策略 和 机 制 ， 资 源 可 以 被 多 个 进程 使 用 。 透 明 共 享 指 的 是 资源 共 
享 被 用 来 实现 虚拟 机 ， 对 用 户 来 说 是 不 可 见 的 。 显 式 共享 指 的 是 进程 可 以 根据 它们 自己 的 策略 来 使 用 共 
同 的 资源 (在 操作 系统 机 制 的 支持 下 )。 

shell; 见 command line interpreter. 

shortest job next (SIN) (最 短 作业 优先 ): 选择 需要 最 少 服务 时 间 的 线程 有 最 高 优先 级 的 CPU 调度 算法 。 

short-term scheduler (低级 调度 ) 7 scheduler. 

signal, UNIX (UNIX 信号 ) : 用 于 一 个 进程 通知 另外 进程 并 发 事件 的 机 制 。 发 送 者 发 出 信和 号， 接收 者 收 到 
后 运行 与 信号 事件 相关 联 的 功能 。 

single-threaded kernel (单线 程 内 核 ) : 在 被 动 内 核 中 ， 系 统 调用 作为 一 个 线程 来 执行 的 操作 系统 内 核 。 调 
用 线程 通常 情况 下 不 会 被 剥夺 ， 除 非 被 中 断 。 

SIMD (single-instruction, multiple data) computer ( 单 指令 流 ， 多 数据 流 计 算 机 ): 一 种 计算 机 体系 结构 ， 
其 中 单个 控制 单元 取 和 解码 一 个 指令 流 ， 但 是 多 个 ALU 同时 执行 单个 的 指令 。 

simultaneous P: 见 AND synchronization。 

SJN: 见 shortest job next. 
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sliding-window protocol (滑动 窗口 协议 ): 一 种 网 络 协 议 ， 其 中 多 个 报 文 组 在 一 起 进行 传输 ， 但 是 每 个 报 文 
在 接收 之 后 有 一 个 应 答 消息 。 见 15.4 节 。 

small, communicating computer: 见 SCC. 

SMP: Ji, shared memory multiprocessor. 

sniffer (WERE): 在 保护 和 安全 中 ， 这 个 程序 被 动 地 检查 网 络 上 传输 的 流量 。 

SOC (system-on-a-chip): 采用 了 一 个 微 处 理 器 以 及 特定 功能 〈 如 图 形 引擎 ) 的 一 类 集成 电路 ， 这 些 芯 片 打 
算 支 持 SCC。 

socket ( 套 接 字 ): 在 BSD 套 接 字 包 中 (UNIX 和 Windows 使 用 的 ) ， 套 接 字 是 绑 定 到 一 个 端口 的 终点 地 址 。 
见 15.6 节 。 

source program (WEF): 人 写 的 一 种 程序 形式 ， 源 程序 可 以 使 用 C、C++ 、Java 或 其 他 高 级 语言 编写 。 
计算 机 的 转换 系统 准备 源 程序 用 于 执行 。 

space-multiplexed sharing ( 空 分 复 用 共享 ) : 一 个 共享 资源 被 分 成 两 个 或 多 个 部 分 ， 每 次 每 个 部 分 可 以 分 配 
给 一 个 进程 。 

spatial locality (空间 局 部 性 ) : 见 locality. 

spawn: 创建 新 进程 或 线程 的 操作 系统 函数 ， 例 如 ，UNIX fork( ) 和 Win32 CreateProcess( ) /CreateThread() 
函数 都 是 这 类 函数 。 

special file( 特 殊 文 件 ) :UNIX 系统 中 /dev 目录 的 条 目 ， 它 被 设备 管理 器 使 用 来 访问 设备 的 驱动 程序 。 

speedup (加 速 比 ) : 在 一 个 处 理 机 上 运行 一 个 计算 与 将 计算 细 化 在 N 个 处 理 机 上 运行 的 时 间 的 比率 。 

spinlock (旋转 锁 ) : 一 种 通过 循环 测试 而 共享 的 锁 。 

spooling ( 假 脱 机 (打印 )): 这 是 将 可 执行 任务 组 合成 一 批 用 于 后 续 处 理 的 操作 ， 批 处 理 操作 系统 将 这 些 
作业 组 合 在 一 起 ， 它 们 大 约会 在 同一 时 间 执 行 

stable storage (稳固 存储 ); 一 种 通过 原子 写 操作 使 信息 要 么 被 保存 要 么 被 忽略 的 算法 实现 。 它 的 典型 应 用 
是 运行 在 服务 器 中 帮助 失效 恢复 (参照 第 16.3 节 )。 

stack ($): 在 进程 定义 的 上 下 文中 ， 栈 是 进程 的 一 部 分 ， 它 表示 了 相应 程序 中 定义 的 动态 变量 以 及 需要 
维护 执行 的 其 他 信息 〈 如 返回 地 址 和 参数 )。 

stack algorithm ( 栈 算法 ) : 一 类 页 替换 算法 ， 算法 中 保证 当 增加 内 存 分 配 时 不 会 引起 更 多 的 缺 页 错误 。 

stack base register ( 栈 基 址 寄存 器 ) : 在 段 式 虚拟 存储 系统 中 ， 这 是 一 个 指向 包含 当前 栈 段 的 段 描述 符 的 
CPU 寄存 器 。 - 

stack segment ( 栈 段 ) : 在 C 式 样 的 可 重 定位 和 绝对 程序 映像 中 ， 这 是 一 个 逻辑 地 址 块 ， 它 表示 了 在 运行 时 
栈 上 分 配 的 自动 变量 。 

starvation (RÆ): 在 许多 资源 分 配 策略 中 ， 一 些 进 程 由 于 它们 的 优先 级 不 比 其 他 进程 的 高 ， 所 以 它们 的 
资源 请 求 被 永远 忽略 的 现象 。 饿 死 现象 可 能 发 生 在 CPU 调度 过 程 ， 磁 盘 臂 移动 的 最 优化 ， 或 者 任何 其 
他 资源 分 配 的 过 程 。 | 

state (thread or process) (RAS): 线程 或 进程 当前 所 处 行动 的 表示 ， 例 如 ， 如 果 线 程 在 使 用 CPU， 则 状态 
可 能 是 运行 状态 ， 如 果 线 程 在 等 候 资 源 变 得 可 用 ， 则 为 阻塞 状态 。 

state (system) (状态 ) : 系统 当前 所 做 的 特殊 工作 的 表示 。 空 闲 状 态 意 味 着 系统 在 等 候 进程 使 用 CPU。 

state diagram (状态 图 ) : 在 状态 间 的 状态 和 转换 的 集合 ， 进程 / 袋 程 状态 图 根据 进程 “线程 如 何 被 管理 的 ， 
表示 了 操作 系统 的 进程 /线程 的 特征 。 

state transition (状态 转换 ): 在 状态 图 中 使 得 状态 改变 的 一 个 动作 ， 例 如 ， 分 派 程序 将 进程 的 状态 从 “就 
绪 ” 改 为 “运行 ”。 

stateless server (无 状态 服务 器 ): 并 不 保存 任何 用 户 状态 的 远程 磁盘 或 文件 服务 器 ， 相 反 ， 它 依赖 于 客户 
维持 所 有 的 状态 ， 无 状态 服务 器 重启 时 无 需 恢复 以 前 的 状态 (因为 它们 并 不 使 用 状态 )。 见 16.2 节 。 

static address binding (静态 地 址 绑 定 ) : 将 绝对 模块 定义 的 地 址 空间 绑 定 到 模块 被 加 载 的 主 存 位 置 中 。 在 静 
态 绑 定 中 ， 这 种 关联 是 在 加 载 时 完成 的 ， 在 动态 地 址 绑 定 中 ， 这 种 关联 是 在 运行 时 完成 的 。 

static variable (静态 变量 ) : 即使 超出 了 变量 作用 域 范围 也 还 能 保持 它 最 后 一 次 写 人 的 值 的 一 种 变量 。 

status (状态 ) : Jl state (thread or process)。 这 个 术语 也 用 来 指 存储 在 进程 或 线程 描述 表 中 的 信息 。 
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storage device (存储 设备 ) : 用 来 将 信息 存储 到 计算 机 中 的 周边 设备 ， 存 储 设备 的 例子 是 软盘 、 硬 盘 和 CD- 
ROM。 

storage hierarchy (存储 层次 ) : 存储 机 制 范围 从 快 到 慢 、 从 小 到 大 。 小 的 快速 存储 机 制 用 来 实现 主 存 ， 大 
的 慢 速 存储 设备 用 来 实现 辅 存 。 存 储 层次 是 快 设备 到 慢 设 备 的 等 级 顺序 ， 粗 略 地 对 应 于 小 到 大 设备 的 等 
级 顺序 。 第 11 章 有 更 多 的 信息 。 

stored program computer (存储 程序 计算 机 ): 几乎 在 所 有 当代 计算 机 硬件 中 使 用 的 汉 ' 诺 依 曼 计算 机 体系 结 
H 〈 见 第 4 章 )， 定 义 计算 机 操作 的 程序 存储 在 可 执行 ( 主 ) 存 中 。 

STR: JL segment table register. 

stream-block translation ( 流 一 块 转换 ) : 见 marshalling 和 unmarshalling. 

structured file system (结构 化 文件 系统 ) 见 high-level file system. 

structured sequential file (结构 化 顺序 文件 ) : 一 种 文件 格式 ， 文 件 是 由 操作 系统 文件 管理 器 读 写 的 索引 记 
录 组 成 。 见 13.2 节 。 

subject (主体 ) : 在 保护 系统 中 ， 主 体 表 示 执 行 在 保护 域 中 的 进程 ， 它 是 服务 被 动 保护 域 的 活动 实体 。 

superblock (超级 块 ): 包含 了 有 关 磁 盘 驱 动 器 布局 信息 的 磁盘 块 的 Linux 名 字 。 见 20.6 节 。 

superuser (超级 用 户 ): 对 机 器 有 完全 的 管理 授权 的 UNIX 用 户 。 

supervisor call (核心 态 调用 ) : 见 trap instruction. 

supervisor domain (核心 域 ) : 在 保护 机 制 中 ， 这 指 的 是 软件 是 高 度 可 信 的 情况 ， 例 如 ， 它 执行 时 ，CPU 的 
模式 位 被 设置 。 见 protection domain。 

supervisor instruction (核心 指令 ): 见 privileged instruction. 

supervisor mode (核心 模式 ) UL mode bito 

supervisor space (核心 空间 ) : 当 模 式 位 被 设置 到 核心 模式 下 分 配 的 存储 块 。 也 见 mode bit. 

surface, disk (表面 ， 磁 盘 ): 硬盘 上 存储 空间 的 划分 ， 对 应 于 磁盘 驱动 器 上 一 个 盘 的 一 边 。 表 面 是 物理 磁 
盘 的 一 边 。 

surrogate system process (代理 系统 进程 ) : 与 每 个 为 交互 用 户 提供 服务 的 硬件 配置 端口 相关 联 的 进程 。 

swapping (Zik): 进程 可 以 周期 性 地 释放 它 的 主 存 空 间 的 存储 管理 技术 ， 这 使 得 交换 出 的 进程 在 再 次 竞 
争 处 理 机 之 前 可 以 竞争 存储 器 。 

swapping system (交换 系统 ): 在 存储 管理 器 中 使 用 交换 的 操作 系统 。 

symmetric encryption (对 称 加 密 ) : 一 种 私有 密 钥 加 密 技术 ， 同样 的 密 钥 用 于 加 密 和 解密 。 

synchronization (同步 ) : 确保 不 相关 的 计算 线程 开始 在 相同 逻辑 时 间 执 行 代码 块 的 行为 。 因 为 计算 机 系统 
中 存在 并 发 ， 这 意味 着 N 个 线程 中 的 所 有 线程 要 到 一 个 特定 的 指令 之 后 才 会 继续 执行 ， 这 个 特定 指令 

” 称 为 p; 的 同步 点 ， 也 就 是 说 N 个 线程 都 到 达 它 们 的 同步 点 之 后 才 会 继续 执行 。 

synchronous send (同步 发 送 ) : IPC 传递 操作 ， 传 递 线程 /进程 会 阻塞 直到 接收 线程 /进程 (或 它 的 操作 系 
统 ) 确认 了 消息 的 接收 。 

system call (系统 调用 ) : 调用 系统 函数 的 一 种 类 型 ， 调 用 进程 使 用 自 陷 来 开始 运行 操作 系统 函数 ， 当 函数 
完成 时 ， 进 程 返 回执 行 应 用 程序 ， 系 统 调用 接口 指 的 是 操作 系统 导出 的 API。 

system call interface (系统 调用 接口 ): 由 操作 系统 实现 的 一 组 数据 类 型 和 函数 。 它 们 便于 被 其 他 的 系统 软 
件 和 应 用 软件 所 使 用 。 

system software (系统 软件 ) : 在 硬件 之 上 实现 应 用 程序 编程 环境 的 软件 。 它 扩展 实现 了 硬件 的 功能 ， 因 而 
可 以 同时 被 多 个 计算 机 用 户 所 共享 使 用 ， 程 序 员 可 以 容易 地 控制 硬件 的 使 用 。 

system space (系统 空间 ): W, supervisor space. 


工 


table fragmentation (AAA): 在 一 个 固定 大 小 的 表 用 来 索引 单元 〈 如 文件 中 的 索引 分 配 ) 的 任何 情况 下 ， 
未 使 用 的 表 条 目 被 浪费 了 ， 这 称 为 表 碎 片 。 

terminal emulator (终端 仿真 }: 仿真 硬件 终端 行为 的 软件 包 ， 如 DEC VT-100。 终 端 仿真 使 用 网 络 协议 来 
连接 到 服务 器 上， 这 个 会 话 仿真 经 典 的 分 时 环境 。 
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test-and-set instruction (test-and-set 指令 ) : 它 是 对 一 个 内 存 指定 位 置 的 操作 ， 使 该 内 存 位 置 的 内 容 被 载 人 
一 个 CPU 寄存 器 (使 条 件 码 寄存 器 的 内 容 反映 数据 值 )， 同 时 内 存 位 置 被 写 人 一个 TRUE 的 值 。 

text segment (文本 段 ) 见 code segment. 

thrashing (抖动 ) ; 在 调 页 的 过 程 中 ， 一 个 进程 重复 替换 将 要 访问 的 页 的 一 种 现象 。 抖 动 的 发 生 是 由 于 进 
程 没有 被 分 配 足够 的 页 帧 数目 而 造成 的 。 

thread (线程 ) : 包含 了 最 少 内 部 状态 和 资源 的 计算 单元 。 它 与 一 个 正常 的 、 重 权 的 操作 系统 进程 相关 ， 相 
关 的 进程 被 分 配 资源 ， 如 地 址 空间 、 文 件 、 存 储 器 等 。 线 程 使 用 相关 的 进程 资源 来 执行 。 也 见 process 
(modern). ° 

thread descriptor (线程 描述 表 ) : 操作 系统 保持 管理 线程 所 有 信息 的 数据 结构 。 

thread identifier (线程 标识 符 ) ; 在 线程 存在 期 间 ， 对 线程 的 唯一 引用 。 

throughput rate (FEE): 一 个 计算 机 所 接受 的 全 部 请 求 与 完成 的 请 求 的 比率 。 

time quantum (时 间 量 ) : 见 timeslice。 

time-multiplexed sharing (时 分 复 用 共享 ): 一 个 资源 在 某 时 被 分 配给 一 个 进程 独占 性 使 用 ， 在 以 后 的 某 个 
时 刻 ， 它 被 分 配给 一 个 不 同 的 进程 。 

timesharing system (分 时 系统 ) : 多 道 程序 设计 操作 系统 的 一 种 模式 ， 它 支持 交互 性 的 多 用 户 。 

timeslice (时 间 片 ) : 在 另 一 个 进程 被 调度 之 前 ， 进 程 被 允许 使 用 CPU 的 时 间 量 。 

time quantum: 见 timeslice。 

TLB (translation lookaside buffer， 转 换 后 援 缓冲 ) ; 一 个 快速 缓冲 存储 器 ， 它 保存 有 计算 机 中 当前 操作 的 
所 有 进程 的 页 表 的 拷贝 。 

track (磁道 ) : 旋转 媒体 (如 软盘 ) 上 的 记录 区 域 的 几何 分 布 。 磁盘 记录 表面 被 组 织 成 一 组 同 中 心 的 环 ， 
每 个 环 称 为 一 个 磁道 。 

transaction (事务 处 理 ) : 一 个 命令 序列 ， 它 对 相关 操作 数据 的 影响 为 ， 命令 要 么 全 部 被 执行 ， 要 人 么 全 都 没 
有 执行 。 

translation lookaside buffer， 见 TLB。 

transparent sharing (透明 共享 ): 见 sharing, 

transport layer (传输 层 ) : ISO OSI 网 络 体系 结构 中 的 一 层 ， 它 提供 虚拟 电路 以 实现 字 节 流传 输 ， 并 且 保 证 
在 互联 网 上 的 可 靠 信息 传输 。 

trap instruction ( 自 陷 指令 ): 使 得 控制 单元 的 行为 就 好 像 中 断 发 生 的 指令 ， 通 常情 况 下 ， 它 用 来 剥夺 当前 
的 进程 并 启动 操作 系统 在 自 陷 表 确定 的 人 口 点 开始 执行 。 

trap table (AMR (系统 调用 表 ) ) : 包含 了 内 核 导 出 的 所 有 函数 入口 点 的 驻 留 内 核 表 ， 自 陷 指令 使 用 自 陷 
表 的 地 址 间接 地 分 支 到 函数 入口 点 。 

trapdoor function: 见 one-way function。 

Trojan horse (特洛伊 木马 ) : 在 保护 和 安全 中 ， 它 指 的 是 人 侵 者 提供 了 一 些 实体 给 系统 ， 系 统 接受 它 并 将 
CAR ET RRP, XNA ThE BE 

tunnel (隧道 ); 在 网 络 中 ， 隧 道 是 互联 网 上 两 台 主机 间 的 逻辑 连接 。 见 15.6 节 。 

trusted software (可 信和 软件 ): 仔细 编写 和 调试 过 的 软件 ， 它 用 来 实现 确保 正确 操作 的 操作 系统 的 一 部 分 。 

turnaround time (转向 时 间 ) : 一 个 进程 开始 进入 就 绪 状 态 的 时 刻 与 进程 上 次 结束 运行 状态 的 时 刻 之 间 的 时 
间 间 隔 。 . 

U 

unforgeable identification (唯一 标识 ): 在 保护 和 安全 中 ， 这 是 唯一 的 认证 过 程 。 

universal serial bus (USB) { 通 用 串 行 总 线 ) : 提供 了 外 部 连接 器 的 总 线 控制 器 和 协议 ， 它 可 以 连接 数字 照 
相机 和 MP3 音频 播放 器 等 设备 。 ; 

unmarshalling (解码 ) : 将 线性 字 节 序列 转换 成 面向 语言 的 数据 结构 的 过 程 ， 这 是 通过 文件 管理 器 和 网 络 
协议 来 完成 的 。 

unsafe state (不 安全 状态 ) : 见 safe state, 
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untrusted software (不 可 信 软 件 ) : 不 是 可 信 软 件 的 软件 CA trusted software) 。 

user mode (用 户 模 式 ) Jl mode bit. 

user authentication (用 户 认证 ) : 见 external authentication. 

user space (用 户 空 间 ): 当 模 式 位 被 设置 到 用 户 态 时 分 配 的 存储 块 (也 见 mode bit). 

user space thread (HP SARE): 在 支持 经 典 进程 和 现代 进程 /线程 的 抽象 的 操作 系统 中 ， 现 代 进 程 中 的 
线程 是 在 应 用 库 中 实现 的 ， 有 一 些 通用 的 用 户 空间 线程 包 ， 如 Mach C 线程 和 POSIX 线程 包 。 也 见 ker- 
nel threads。 


Vv 


VDD (虚拟 磁盘 驱动 程序 ): 见 virtual disk driver. 

virtual address ( 虚 地 址 ) ; 通过 程序 转换 系统 而 生成 的 地 址 ， 当 程序 执行 时 绑 定 到 一 个 特定 的 物理 内 存 地 址 。 

virtual address space (虚拟 地 址 空间 ); 可 以 被 进程 使 用 的 虚拟 地 址 集合 。 i 

virtual address translation (虚拟 地 址 转换 ) : 在 任何 给 定时 刻 ， 程 序 虚拟 地 址 空间 到 物理 地 址 空间 的 映射 。 

virtual circuit (虚拟 电路 } JL connection. 

virtual disk address (虚拟 磁盘 地 址 ) : 在 远程 磁盘 服务 器 上 使 用 ， 用 来 访问 远程 磁盘 服务 器 上 的 磁盘 地 址 。 

virtual disk driver (虚拟 磁盘 驱动 程序 ); 远程 磁盘 系统 的 客户 方 。 见 16.2 节 。 

virtual file system (虚拟 文件 系统 ) : 采用 不 同类 型 的 子 树 文件 系统 的 层次 文件 管理 器 设计 。 见 13.7 节 。 

virtual machine (虚拟 机 ): 见 abstract machine, 

virtual memory (虚拟 存储 器 ) : 一 种 操作 系统 抽象 ， 在 进程 地 址 空间 中 的 部 分 被 动态 绑 定 到 主 存 地 址 上 ， 
然后 从 辅 存 拷贝 到 主 存 中 ， 最 后 从 主 存 拷贝 回 辅 存 中 。 

virtual terminal (虚拟 终端 ): 一 个 操作 系统 实体 。 表 示 了 类 似 于 物理 终端 使 用 的 程序 设计 模型 ， 除 了 根据 
用 户 应 用 的 限制 ， 操 作 被 施加 到 物理 终端 上 。 也 见 window systemo 

virtual time (虚拟 时 间 ) : 协调 进程 中 的 线程 所 感知 的 时 间 。 虚 拟 时 间 的 一 种 测量 方法 是 线程 对 虚拟 存储 
器 访问 的 次 数 ， 另 一 种 测量 方法 是 线程 增加 的 CPU 时 间 数 。 

virus (病毒 ) : 隐藏 在 另 一 个 软件 模块 中 的 软件 模块 。 见 第 14 章 。 

vnode: 一 个 抽象 的 文件 控制 块 ， 它 类 似 于 UNIX 中 的 inode, 用 在 Sun 的 NFS 远程 文件 服务 器 中 。 

von Neumann architecture ( 冯 : 诺 依 黑 体系 结构 ): 现代 计算 机 的 基本 组 织 结构 。 该 体系 结构 中 使 用 一 个 处 
理 机 ， 甚 中 包含 一 个 算术 - 逻辑 运算 和 控制 的 部 件 、 一 个 主 存 部 件 以 及 各 种 1/O 设备 。 


W 


wait time (等 待 时 间 ) : 一 个 进程 在 它 第 一 次 转 入 运行 状态 之 前 ， 处 于 就 绪 状 态 中 花费 的 时 间 。 

web cache (web 缓存) : 一 个 网 络 服 务 器， 特地 配置 来 缓存 从 内 容 服 务 器 中 得 到 的 文件 。 见 18.4 节 。 

web proxy (web EE): 见 web cache, 

Win32 API: Windows 操作 系统 的 软件 应 用 程序 设计 接口 ，Windows NT/2000/XP 操作 系统 实现 了 整个 的 
API。 其 他 的 Windows 版 本 ， 如 Windows CE (Pocket PC) 和 Windows 98， 实 现 了 整个 API 的 子 集 。 
window (窗口 ): 在 虚拟 存储 器 的 驻 留 集 方法 中 ， 窗 口 是 一 种 度量 方法 ， 用 来 考虑 影响 页 替换 策略 的 访问 

流 的 一 部 分 。 

Windows subsystem (Windows FR): Windows NT 执行 体 的 用 户 空间 扩展 ， 子 系统 可 以 增加 大 量 的 不 同 
操作 系统 服务 ， 尽 管 最 著名 的 子 系统 增加 操作 系统 服务 ， 如 Win32 子 系统 ， 在 早期 版 本 中 是 POSIX F 
系统 。 

window system (窗口 系统 ); 系统 软件 ， 它 给 应 用 程序 员 提供 了 一 个 虚拟 的 物理 终端 的 模型 。 在 窗口 模型 
中 的 屏幕 操作 会 被 限于 物理 屏幕 中 的 一 个 有 限 区 域 。 

word (F): 计算 机 硬件 设计 者 定义 的 基本 存储 单元 。 这 个 定义 起 源 于 CPU 中 使 用 的 操作 数 的 大 小 (位 数 )。 

workstation (工作 站 ) : 一 次 只 能 被 一 个 人 使 用 的 计算 机 ， 常 常 使 用 网 络 连 接 到 其 他 的 计算 机 。 也 见 per- 
sonal computer。 


working set (HER): 线程 局 部 性 中 的 页 的 集合 。 
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working set principle ( 驻 留 集 原 理 ) : 虚拟 存储 器 分 配 策略 ， 进 程 仅 当 被 分 配 了 足够 的 页 帧 来 保持 它 的 驻 留 
集 才 被 加 载 。 见 12.5 节 。 

World Wide Web (万 维 网 ) : 在 ISO OSI 传输 层 上 操作 的 一 组 协议 〈 主 要 是 HITP) ， 它 可 以 使 用 户 从 公共 
因特网 上 的 不 同位 置 获 取消 息 。 见 第 15 章 。 

Worm (蠕虫 ) : 通过 欺骗 认证 机 制 试图 侵 人 计算 机 系统 的 软件 。 

write-back cache { 同 写 高 速 缓存 ) : 一 种 高 速 缓存 存储 策略 ， 当 改变 高 速 缓存 中 的 值 而 引起 主 存 中 相应 的 
值 需要 更 新 时 ， 并 不 马上 更 新 ， 更 新 作为 一 个 滞后 操作 。 

write-through cache ( 写 穿 透 高 速 缓存) : 一 种 高 速 缓存 存 储 策略 ， 当 改变 高 速 缓存 的 值 而 引起 主 存 中 相应 
的 值 需要 更 新 时 ， 立 即 进行 更 新 。 

WWW: 见 World Wide Web. 
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